Очистка данных Instagram с помощью запросов и BS (НОВИНКА)

во-первых, я хочу, чтобы не было сообщений о том, как сделать это по-старому, используя метатеги, но по какой-то причине метатеги больше не будут работать, и я видел, как использование json может как-то работать, но я не очень хорошо знаком с json. Вроде вообще. Я как бы изменил то, что мне нужно было для этого сделать, но все равно ничего. Цель состоит в том, чтобы просто получить количество подписчиков учетной записи (пользователя).

def follower_amt(self, user):
    time.sleep(6)     
    # old method deprecated
    # now requires using json file
    html = requests.get(f'https://www.instagram.com/{user}/?__a=1')
    soup = BeautifulSoup(html.text, 'lxml')
    data = soup.findAll('span', {'class':'g47SY'})
    text = data[0].get('content').split()
    user = '%s %s %s' % (text[-3], text[-2], text[-1])
    followers = text[0]

Любая помощь приветствуется!

Может ли эта информация не поступать из API? Кроме того, можете ли вы привести пример полного URL-адреса и ожидаемого возвращаемого значения

QHarr 25.12.2020 06:46

@QHarr Instagram давно устарел от своего API, поэтому мы должны прибегнуть к этому. Пример URL-адреса — просто instagram.com/brandonator24, а добавленный «?__a=1» взят из того, что я читал об использовании json, с которым я опять-таки не знаком. Он должен возвращать строку байтов с количеством подписчиков, однако это то, что у меня было, но это может измениться.

Brandon Pardi 25.12.2020 07:10
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
3
2
955
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

(ПРИМЕЧАНИЕ: не тестировалось, так как допускается соскребание сомнений)

Я вижу это значение в исходном коде страницы в теге script, что означает, что вы можете использовать регулярное выражение следующим образом:

import requests, re

r = requests.get('https://www.instagram.com/brandonator24/', headers = {'User-Agent':'Mozilla/5.0').text

print(int(re.search('"edge_follow":{"count":(\d+)}', r).groups(0)[0]))

Это, конечно, широкое предположение, что другие страницы имеют аналогичную настройку.


Значение регулярного выражения:

Он говорит, что ожидал строку или байты, подобные объекту? Также я вижу, что регулярное выражение работает, но хотел бы заставить его работать, используя красивый суп, если это возможно. Я дошел до этого момента, который, я думаю, должен работать, но не

Brandon Pardi 25.12.2020 09:23
soup = BeautifulSoup(r.content, 'html.parser')stuff = soup.find_all('meta', name='description')
Brandon Pardi 25.12.2020 09:31

Не следует говорить, что нужны байты, такие как объект, поскольку запрос относится к строковому URL-адресу, а из объекта ответа я беру .text, который является строкой. Попробуйте добавить заголовок, как в редактировании.

QHarr 25.12.2020 16:35

Хорошо, добавление заголовков сработало! Можете ли вы кратко объяснить, что такое заголовки и как запрос работал без них раньше, а не до недавнего времени?

Brandon Pardi 27.12.2020 21:23

Я предполагаю, что сервер теперь настроен на поиск определенных заголовков в полученных запросах. Это довольно распространено. Читайте о заголовках: developer.mozilla.org/en-US/docs/Web/HTTP/Headers

QHarr 28.12.2020 00:44

Согласно ApiUrl, который вы дали.

Ты можешь получить то, что хочешь, верно?

import requests

headers = {
    'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'}
res = requests.get(f'https://www.instagram.com/{user}/?__a=1', headers=headers)

print(res.json()['graphql']['user']['username'])
print(res.json()['graphql']['user']['edge_followed_by']['count'])

Я запустил это, и это дало мне JSONDecodeError: Expecting value: line 1 column 1 (char 0) И у меня действительно не было опыта работы с json до сегодняшнего дня, поэтому я потерялся. Я хотел бы использовать красивый суп, если это возможно, как раньше.

Brandon Pardi 25.12.2020 09:37

Но моя операция в порядке, вы можете дать мне UserID?

dudulu 25.12.2020 12:45

да это брендонатор24

Brandon Pardi 27.12.2020 21:14

Вероятно, вас заблокировал Instagram. Существуют API-интерфейсы для парсинга, которые используют прокси для отправки запросов и предотвращения блокировки. Вот один из них, в котором есть хороший учебник по парсингу Instagram: scrapingfish.com/blog/scraping-instagram.

kostek 31.03.2022 19:04

Другие вопросы по теме