Итерировать следующую строку каждый раз, когда начинается цикл while

У меня есть CSV-файл со ссылками, извлеченными из потокового API. У меня есть скрипт (называемый selenium.py) в цикле while, где selenium webdriver делает скриншот каждого URL-адреса, а затем сохраняет его в файле. Каждую минуту в файл csv добавляются новые строки.

Мой код:

df = pd.read_csv('screenshot.csv', header = 0, usecols= ['url','guid'])
while True: 
   i = 0  
   for i, row in df.iterrows():
       r = driver.get(row['url'])
       driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
       i += 1
       for n in range(2):
           file_name = str(row['guid'])
           fn_1 = "date_stamp{n:0>5}.png".format(n = n)
           date_stamp= str(datetime.datetime.now()).split('.')[0]
           fn_1 = date_stamp
           fn=driver.save_screenshot(file_name+ ' ' + date_stamp + '.png')
           sourcepath='/Users/user/'
           destinationpath = '/Users/user/Screen'
           sourcefiles = os.listdir(sourcepath)
           filename= file_name+ ' ' + date_stamp + '.png'

Что мне нужно:

Я запускаю скрипт в jupyter следующим образом:

while True: %run "Selenium.py" time.sleep(60.0 - ((time.time() - starttime) % 60.0))

Мне нужно каждый раз, когда скрипт запускается, итерация увеличивается на одну строку.

Любая помощь, пожалуйста?

selenium.py — не лучшее имя для скрипта, так как оно совпадает с именем модуля.

— 24.01.2019 22:00

хорошо, но это пример

— 24.01.2019 22:01

Вы имеете в виду, что вы хотите, чтобы скрипт создания снимков экрана, который запускается каждые 60 секунд, делал снимки экрана только тех URL-адресов в csv, которые были добавлены в течение этих 60 секунд, без повторного создания записей csv, которые он обрабатывал ранее?

— 24.01.2019 22:08

@ godfryd это может быть вариантом, но исходный вопрос заключается в том, как при запуске цикла он считывает файл + дополнительную строку, добавленную потоком.

— 24.01.2019 22:10

python python-3.x pandas selenium-webdriver while-loop

24.01.2019 21:57

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Объедините все, что вы делаете в Selenium.py, в такую функцию, как:

def take_screenshot():
    # your code here

Затем в jupyter импортируйте файл с помощью:

import Selenium

Затем вы можете вызвать функцию с помощью:

while True:
    Selenium.take_screenshot()
    time.sleep(60.0 - ((time.time() - starttime) % 60.0))

Использование %run в цикле for кажется антишаблоном. Хотя эта функция take_screenshot, скорее всего, примет URL-адрес в качестве параметра, поэтому вам понадобится цикл.

— 24.01.2019 22:07

24.01.2019 22:03

Ответ принят как подходящий

Во-первых, вам нужно переместить чтение csv в цикл while:

df = pd.read_csv('screenshot.csv', header = 0, usecols= ['url','guid'])
while True:

становится

while True: 
    df = pd.read_csv('screenshot.csv', header = 0, usecols= ['url','guid'])

Теперь вы можете отслеживать количество прочитанных строк и использовать пропуски при чтении csv. то есть

i = 1
while True:
  df = pd.read_csv('screenshot.csv', header=0, usecols=['url','guid'], skiprows=lambda x: x in range(1, i))
  for i, row in df.iterrows():
    r = driver.get(row['url'])
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    i += 1

Тем не менее, вам, возможно, лучше не использовать здесь pandas и читать каждую строку построчно, либо сохраняя ее в dict, либо в наборе «видимых» guid/url (чтобы вы не извлекали их дважды).

Извините, если мой вопрос глупый: вы имеете в виду, что код останется прежним, за исключением перемещения df = pd.read_csv('screenshot.csv', header = 0, usecols= ['url','guid'], skiprows=i) в цикл while True?

— 24.01.2019 22:19

@J.Doe, да, и после i=0. (Я думаю, это правильный способ назвать это, возможно, вам нужно сделать skiprows=lambda x: x in range(1, i) и запустить i=1, я не проверял)

— 24.01.2019 22:21

вы имеете в виду вот так: while True: df = pd.read_csv('screenshot.csv', header = 0, usecols= ['url','guid'], skiprows=i) i = 0 skiprows=lambda x: x in range(1, i) for i, row in df.iterrows(): r = driver.get(row['url']) driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") i +=1

— 24.01.2019 22:28

24.01.2019 22:04