Сканирование списка URL-адресов поиска Google с помощью Python

Я хотел бы очистить URL-адрес результата поиска Google с помощью python.

Вот мой код

import requests
from bs4 import BeautifulSoup

def search(keyword):        
    html = requests.get('https://www.google.co.kr/search?q = {}&num=100&sourceid=chrome&ie=UTF-8'.format(keyword)).text
    soup = BeautifulSoup(html, 'html.parser')
    result = []
    for i in soup.find_all('h3', {'class':'r'}):
        result.append(i.find('a', href = True) ['href'][7:])
    return result

search('computer')

Тогда я могу получить результат. Первым URL-адресом в списке является wikipedia.com, то есть

'https://en.wikipedia.org/wiki/Computer&sa=U&ved=0ahUKEwixyfu7q5HdAhWR3lQKHUfoDcsQFggTMAA&usg=AOvVaw2nvT-2sO4iJenW_fkyCS3i', '? q = компьютер & num = 100 & ie = UTF-8 & prmd = ivnsbp & tbm = isch & tbo = u & source = univ & sa = X & ved = 0ahUKEwixyfu7q5HdAhWR3lQKHUfoDcsQsAQIHg'

Я хочу получить чистый URL-адрес, который в данном случае будет «https://en.wikipedia.org/wiki/Computer», включая все остальные результаты поиска.

Как я могу изменить свои коды?

Отредактировано: как вы видите изображение ниже, я хочу получить реальный URL-адрес (отмечен желтым), а не беспорядочный и длинный URL-адрес выше.

Сканирование списка URL-адресов поиска Google с помощью Python

python web web-crawler

29.08.2018 05:44

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

1 484

Ответы 2

Как насчет добавления

.split('&')[0]

в ваш код таким образом, чтобы он стал:

import requests
from bs4 import BeautifulSoup

def search(keyword):
    html = requests.get('https://www.google.co.kr/search?q = {}&num=100&sourceid=chrome&ie=UTF-8'.format(keyword)).text
    soup = BeautifulSoup(html, 'html.parser')
    result = []
    for i in soup.find_all('h3', {'class':'r'}):
        result.append(i.find('a', href = True) ['href'][7:].split('&')[0])
    return result

search('computer')

[РЕДАКТИРОВАТЬ]

Возьмем для примера https://en.wikipedia.org/wiki/Computer:

Благодаря инструментам разработчика Chrome URL-адрес выглядит чистым.

Поскольку он принадлежит <h3 class = "r">, ваш код должен работать нормально и возвращать чистый URL-адрес.

Вместо этого, если вы замените

result.append(i.find('a', href = True) ['href'][7:])

print i

то в моем терминале он возвращает следующее для указанной выше ссылки:

/url?q=https://en.wikipedia.org/wiki/Computer&amp;sa=U&amp;ved=0ahUKEwinqcqdypHdAhVhKH0KHVWIBEUQFggfMAU&amp;usg=AOvVaw1pduIWw_TSCJUxtP9W_kHJ

вы можете видеть, что /url?q= добавлен, а &sa=U&ved=0ahUKEwinqcqdypHdAhVhKH0KHVWIBEUQFggfMAU&usg=AOvVaw1pduIWw_TSCJUxtP9W_kHJ добавлен.

Посмотрев также и на другие ссылки, я заметил, что добавленная часть всегда выглядит как /url?q=, а добавленная часть всегда начинается с &.

Поэтому я считаю, что мой первоначальный ответ должен сработать:

result.append(i.find('a', href = True) ['href'][7:].split('&')[0])

[7:] удаляет добавленную строку, а split('&')[0] - добавленную строку.

Это возможно только для одной ссылки, от которой он отказался. Произойдет сбой, если есть ссылка, не содержащая амперсанда.

— 29.08.2018 05:59

@JosephSeungJaeDollar Верно, мне нужен универсальный метод, применяемый к каждому собранному URL.

— 29.08.2018 06:27

@JosephSeungJaeDollar Я почти уверен, что он не выйдет из строя, ссылка останется такой, как есть, если она не содержит амперсанда.

— 29.08.2018 06:46

Ссылки @WookeunLee + обычно делают «нечистыми» & и ?, поэтому вы можете просто продолжать добавлять соответствующие условия (например, .split('?')[0]), пока не получите желаемый результат. Мои результаты выглядят хорошо с одним разделением амперсанда.

— 29.08.2018 06:48

@ wookiekim Я изменил свой вопрос, проверьте его еще раз.

— 29.08.2018 07:40

@WookeunLee отредактировал мой ответ, хотя код остался прежним. Я по-прежнему считаю, что он должен работать, но вы все равно можете отказаться от него. ++ некоторые нерелевантные ссылки могут попасть в результаты, но вы можете отфильтровать их позже.

— 29.08.2018 08:04

29.08.2018 05:53

Я нашел решение.

Данная модификация в функции поиска работает.

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}     
    html = requests.get('https://www.google.co.kr/search?q = {}&num=100&sourceid=chrome&ie=UTF-8'.format(keyword), headers = headers).text

29.08.2018 13:56

Другие вопросы по теме

Назначение возвращаемого значения JS-функции переменной завершается ошибкой

Преобразование задачи gulp 3.0 в gulp 4.0

Фотографии на сайте не показываются другим зрителям

Предполагаемый тип-переменная (S)

Как сообщить сайту, что используется электрон?

SSLv3 не поддерживается этой версией OpenSSL

Автоматизируйте веб-действия без необходимости открывать браузер

Отображение изображений в веб-проекте Java

Создание независимой от браузера или альтернативной внутренней границы кнопки IE для фокуса? (связанные с доступностью)

Чтобы создать индивидуальный веб-сайт в Microsoft, какие инструменты нужны нам как разработчику для его создания?

Сканирование списка URL-адресов поиска Google с помощью Python

Ответы 2

Другие вопросы по теме

Похожие вопросы