Поиск Selenium в google, затем сканирование страницы, если ключевое слово существует

1. Я использую Selenium для поиска "даты выпуска шалфея" в Google.

2. Затем я хочу просканировать всю страницу результатов, если в результатах присутствует мое поисковое слово "Дата выхода".

Я повторно использую этот код шаблона поиска из моего предыдущего проекта, но в нем использовался urllib. Поэтому мне пришлось немного скорректировать код шаблона поиска. Но это не то, что я хочу. Я застрял. Может ли кто-нибудь указать мне правильное направление?

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import re

#   Version Alpha 3
#_______________________________________________________________________________

browser = webdriver.Chrome(executable_path=r"C:\Selenium_Drivers\chromedriver.exe")
browser.get('http://www.google.com')

input_element = browser.find_element_by_name('q')
input_element.send_keys('sage release dates')
# input_element.send_keys('Wolters Kluwer release dates')
input_element.submit()

'''
RESULTS_LOCATOR = '//div/h3/a'

WebDriverWait(browser, 10).until(
    EC.visibility_of_element_located((By.XPATH, RESULTS_LOCATOR)))

page1_results = browser.find_elements(By.XPATH, RESULTS_LOCATOR)
'''

page1_results = browser.find_elements_by_class_name('med')

for item in page1_results:
    print(item.text)

#..................................................

keywords = ['release date']

# sequence = page1_results.decode('utf-8', 'ignore')
sequence = page1_results

for k in keywords:
    pattern = '(?i)' + k
    keyword = re.search(pattern, str(sequence))
    if keyword:
        # print(keyword.group(0))
        print('k-1')
        print(k)
        print(keyword)
    else:
        print('k-2')
        print('-')
        print(k)
        print(keyword)




#..................................................
# browser.quit()

windows selenium anaconda python-3.6

19.09.2018 00:43

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

389

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Вы можете просто создать интеллектуальный xpath, чтобы определить, есть ли в результатах поиска элементы с текстом ключевого слова ('sage release Date'). Например, проверьте, есть ли на всей странице результатов один из следующих текстов или любой из следующих:

элементы результата с текстом 'sage'
элементы результата с текстом 'sage release'
элементы результата с текстом "даты выпуска"

Таким образом вы сможете улучшить свой поиск. Однако вы можете изменить xpath, если вам не нужны дополнительные фильтры.

Если вам нужны результаты с текстом «даты выпуска sage», используйте следующий xpath:

//*[contains(text(), 'sage release dates')]

Если вам нужны результаты только с текстом «даты выпуска», используйте следующий xpath:

//*[contains(text(), 'release dates')]

Пример фрагмента кода на Python:

from selenium import webdriver

driver.get('http://www.google.com')
elem = driver.find_element_by_name("q")
elem.send_keys("sage release dates")
elem.submit()

allResults = driver.find_elements_by_xpath("//*[contains(text(), 'sage release dates') or contains(text(), 'sage') or contains(text(), 'release') or contains(text(), 'sage release')]")
releaseDateResults = driver.find_elements_by_xpath("//*[contains(text(), 'release date')]")

print len(allResults)
print len(releaseDateResults)
driver.quit()

Дополнительный вопрос. Как сделать поиск по xpath нечувствительным к регистру? . <br> all_results = browser.find_elements_by_xpath( "//*[contains(text(), 'release date') or contains(text(), 'SAGE Release')]"). <br> for item in all_results: print(item.text)

— 19.09.2018 23:51

Для запроса с учетом регистра вы можете использовать функцию перевода. Для xpath: // * [contains (text (), 'release date') или contains (text (), 'SAGE Release')] до // * [contains (text (), 'release date') или содержит (text (), translate ('дата выпуска', 'relasdt', 'RELASDT')) или содержит (text (), 'SAGE Release') или содержит (text (), translate ('SAGE Release', 'sagerl' , 'САГЕРЛЬ'))]

— 21.09.2018 01:49

19.09.2018 02:16