У меня есть CSV-файл со ссылками, извлеченными из потокового API. У меня есть скрипт (называемый selenium.py) в цикле while, где selenium webdriver делает скриншот каждого URL-адреса, а затем сохраняет его в файле. Каждую минуту в файл csv добавляются новые строки.
Мой код:
df = pd.read_csv('screenshot.csv', header = 0, usecols= ['url','guid'])
while True:
i = 0
for i, row in df.iterrows():
r = driver.get(row['url'])
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
i += 1
for n in range(2):
file_name = str(row['guid'])
fn_1 = "date_stamp{n:0>5}.png".format(n = n)
date_stamp= str(datetime.datetime.now()).split('.')[0]
fn_1 = date_stamp
fn=driver.save_screenshot(file_name+ ' ' + date_stamp + '.png')
sourcepath='/Users/user/'
destinationpath = '/Users/user/Screen'
sourcefiles = os.listdir(sourcepath)
filename= file_name+ ' ' + date_stamp + '.png'
Что мне нужно:
Я запускаю скрипт в jupyter следующим образом:
while True:
%run "Selenium.py"
time.sleep(60.0 - ((time.time() - starttime) % 60.0))
Мне нужно каждый раз, когда скрипт запускается, итерация увеличивается на одну строку.
Любая помощь, пожалуйста?
хорошо, но это пример
Вы имеете в виду, что вы хотите, чтобы скрипт создания снимков экрана, который запускается каждые 60 секунд, делал снимки экрана только тех URL-адресов в csv, которые были добавлены в течение этих 60 секунд, без повторного создания записей csv, которые он обрабатывал ранее?
@ godfryd это может быть вариантом, но исходный вопрос заключается в том, как при запуске цикла он считывает файл + дополнительную строку, добавленную потоком.






Объедините все, что вы делаете в Selenium.py, в такую функцию, как:
def take_screenshot():
# your code here
Затем в jupyter импортируйте файл с помощью:
import Selenium
Затем вы можете вызвать функцию с помощью:
while True:
Selenium.take_screenshot()
time.sleep(60.0 - ((time.time() - starttime) % 60.0))
Использование %run в цикле for кажется антишаблоном. Хотя эта функция take_screenshot, скорее всего, примет URL-адрес в качестве параметра, поэтому вам понадобится цикл.
Во-первых, вам нужно переместить чтение csv в цикл while:
df = pd.read_csv('screenshot.csv', header = 0, usecols= ['url','guid'])
while True:
становится
while True:
df = pd.read_csv('screenshot.csv', header = 0, usecols= ['url','guid'])
Теперь вы можете отслеживать количество прочитанных строк и использовать пропуски при чтении csv. то есть
i = 1
while True:
df = pd.read_csv('screenshot.csv', header=0, usecols=['url','guid'], skiprows=lambda x: x in range(1, i))
for i, row in df.iterrows():
r = driver.get(row['url'])
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
i += 1
Тем не менее, вам, возможно, лучше не использовать здесь pandas и читать каждую строку построчно, либо сохраняя ее в dict, либо в наборе «видимых» guid/url (чтобы вы не извлекали их дважды).
Извините, если мой вопрос глупый: вы имеете в виду, что код останется прежним, за исключением перемещения df = pd.read_csv('screenshot.csv', header = 0, usecols= ['url','guid'], skiprows=i) в цикл while True?
@J.Doe, да, и после i=0. (Я думаю, это правильный способ назвать это, возможно, вам нужно сделать skiprows=lambda x: x in range(1, i) и запустить i=1, я не проверял)
вы имеете в виду вот так: while True: df = pd.read_csv('screenshot.csv', header = 0, usecols= ['url','guid'], skiprows=i) i = 0 skiprows=lambda x: x in range(1, i) for i, row in df.iterrows(): r = driver.get(row['url']) driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") i +=1
selenium.py— не лучшее имя для скрипта, так как оно совпадает с именем модуля.