Привет, я пошел на скейпирование тех же данных с веб-сайта. Но когда я начал использовать многопоточность, у меня возникла ошибка это мой код
from multiprocessing.dummy import Pool # This is a thread-based Pool
from multiprocessing import cpu_count
def crawlToCSV(url):
print(url)
# req = requests.get(url)
# detail = BeautifulSoup(req.text, "lxml")
# images=[]
# for img in detail.find_all("img"):
# images.append(img["src"])
#
# return images
return "k"
if __name__ == "__main__":
FILE_LINES = 10000000
NUM_WORKERS = cpu_count() * 2
chunksize = FILE_LINES // NUM_WORKERS * 4 # Try to get a good chunksize. You're probably going to have to tweak this, though. Try smaller and lower values and see how performance changes.
pool = Pool(NUM_WORKERS)
req = requests.get('https://m.web.com/list?cg=1000')
soup = BeautifulSoup(req.text, "lxml")
i=0
for a in soup.find_all("a"):
if "ad?id" not in a["href"]:
continue
i=i+1
if i==3 :
break
url=a["href"]
print(url)
results = pool.map(crawlToCSV, url)
with open("Output.csv", "ab") as f:
writeFile = csv.writer(f)
for result in results:
writeFile.writerow(result)
Но в моей консоли у меня есть этот 
Как я могу получить URL-адрес в crawlToCSV без \n между символами
я изменил название веб-сайта, и у меня есть запросы на импорт в моем коде
хорошо, с кодом, который вы разместили, я не могу воспроизвести ошибку, поэтому я не могу помочь больше, чем предложить решение возможно. Похоже, ваш код думает, что передает каждому рабочему письмо вместо желаемого URL-адреса. Возможно, попробуйте сохранить URL-адрес в виде списка с одной строкой, содержащей URL-адрес. Таким образом, когда он пытается выполнить итерацию по элементам, каждый элемент будет URL-адресом, а не буквой от одного.
Да, спасибо, у меня есть список использования, и в функции я использую req = request.get(url[:]) чтобы получить все URL!! но это работает спасибо






Не могу воспроизвести сценарий. Я скопировал код, добавил
import requestsвверху и получил сообщение об ошибкеHTTPSConnectionPool(host='m.web.com', port=443): Max retries exceeded with url: /list?cg=1000 (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x000001E399799AC8>: Failed to establish a new connection: [Errno 11001] getaddrinfo failed',)). Я не думаю, что это вопрос mcve