import re
def tst():
text = '''
<script>
'''
if proxi := re.findall(r"(?:<td\s[^>]*?><font\sclass\=spy14>(.*?)<script.*?\"\+(.*?)\)</script)", text):
for proxy, port in proxi:
yield f"{proxy}:{''.join(port)}"
if dtt := re.findall(r"<td colspan=1><font class\=spy1><font class\=spy14>(.*?)</font> (\d+[:]\d+) <font class\=spy5>([(]\d+ \w+ \w+[)])", text):
for date, time, taken in dtt:
yield f"{date} {' '.join([time, taken])}"
return None
return None
for proxy in tst():
print(proxy)
вывод, который я получаю
51.155.10.0:8000
178.128.96.80:7497
98.162.96.41:4145
27-oct-2022 11:05 (49 mins ago)
27-oct-2022 11:04 (50 mins ago)
27-oct-2022 11:03 (51 mins ago)
поэтому я использую это регулярное выражение ниже, чтобы захватить группу из вывода
(\w+[.]\w+[.]\w+[.]\w+[:]\w+)|(\w+.*)
я хочу такой результат, как его объединить с выходом?
157.245.247.84:7497 - 27-oct-2022 11:05 (49 mins ago)
184.190.137.213:8111 - 27-oct-2022 11:04 (50 mins ago)
202.149.89.67:7999 - 27-oct-2022 11:03 (51 mins ago)
Хотя на самом деле это не отвечает на мои вопросы.
Извините за мой плохой английский. Я не знаю, как это объяснить по-английски. Но если вы можете взглянуть на полный код, возможно, он сможет ответить на ваш вопрос.
В вопросе должна содержаться вся необходимая информация для понимания вопроса, а не ссылка.






Этот подход считывает все строки в список, а затем итерирует строки IP и строки даты в тандеме для создания выходных данных.
text = '''157.245.247.84:7497
184.190.137.213:8111
202.149.89.67:7999
27-oct-2022 11:05 (49 mins ago)
27-oct-2022 11:04 (50 mins ago)
27-oct-2022 11:03 (51 mins ago)'''
lines = text.split('\n')
output = []
for i in range(0, len(lines) / 2):
val = lines[i] + ' - ' + lines[i + len(lines)/2]
output.append(val)
print('\n'.join(output))
Это печатает:
157.245.247.84:7497 - 27-oct-2022 11:05 (49 mins ago)
184.190.137.213:8111 - 27-oct-2022 11:04 (50 mins ago)
202.149.89.67:7999 - 27-oct-2022 11:03 (51 mins ago)
Обратите внимание, что этот ответ предполагает, что каждая строка IP всегда будет иметь ровно одну совпадающую строку даты. Также предполагается, что строки упорядочены и что все строки IP предшествуют строкам даты.
Я просто редактирую сообщение. Вот вопрос.
@xnoob Предисловие о том, как вы заканчиваете строки, не влияет на достоверность моего ответа.
Предоставление текста гарантированно содержит N строк IP-адресов, за которыми следуют N строк «временных меток», тогда вы можете сделать это:
text = '''157.245.247.84:7497
184.190.137.213:8111
202.149.89.67:7999
27-oct-2022 11:05 (49 mins ago)
27-oct-2022 11:04 (50 mins ago)
27-oct-2022 11:03 (51 mins ago)'''
lines = text.splitlines()
for ip, t in zip(lines, lines[len(lines)//2:]):
print(f'{ip} - {t}')
Вывод:
157.245.247.84:7497 - 27-oct-2022 11:05 (49 mins ago)
184.190.137.213:8111 - 27-oct-2022 11:04 (50 mins ago)
202.149.89.67:7999 - 27-oct-2022 11:03 (51 mins ago)
я просто редактирую сообщение. Вот вопрос.
используя регулярное выражение
import re
text = '''
157.245.247.84:7497
184.190.137.213:8111
202.149.89.67:7999
27-oct-2022 11:05 (49 mins ago)
27-oct-2022 11:04 (50 mins ago)
27-oct-2022 11:03 (51 mins ago)
'''
ip_regex = r"(?:\d{1,3}\.){3}\d{1,3}\:\d{4}"
time_regex = r'\d{2}\-\w+\-\d{4}\s\d{2}\:\d{2}\s\(.+\)'
ip_list = re.findall(ip_regex, text)
time_list = re.findall(time_regex, text)
for i in range(len(ip_list)):
print(f'{ip_list[i]} - {time_list[i]}')
>>> 157.245.247.84:7497 - 27-oct-2022 11:05 (49 mins ago)
>>> 184.190.137.213:8111 - 27-oct-2022 11:04 (50 mins ago)
>>> 202.149.89.67:7999 - 27-oct-2022 11:03 (51 mins ago)
Предполагая, что код в верхней части вашего (отредактированного) вопроса имеет регулярные выражения, которые работают отлично, и они выполняют одинаковое количество совпадений, вы можете использовать zip:
import re
def tst():
text = '''
<script>
'''
proxi = re.findall(r"(?:<td\s[^>]*?><font\sclass\=spy14>(.*?)<script.*?\"\+(.*?)\)</script)", text)
dtt = re.findall(r"<td colspan=1><font class\=spy1><font class\=spy14>(.*?)</font> (\d+[:]\d+) <font class\=spy5>([(]\d+ \w+ \w+[)])", text)
if proxi and dtt:
for (proxy, port), (date, time, taken) in zip(proxi, dtt):
yield f"{proxy}:{''.join(port)} {date} {' '.join([time, taken])}"
for proxy in tst():
print(proxy)
Что динамичного в вашем вводе? Количество строк? Приказ? Каков общий шаблон для всех возможных входных данных?