Я сделал веб-сканер Scrapy, который может очищать Amazon. Он может выполнять очистку путем поиска элементов по списку ключевых слов и считывать данные с полученных страниц.
Тем не менее, я хотел бы очистить Amazon для большей части данных о продуктах. У меня нет предпочтительного списка ключевых слов для запроса элементов. Скорее, я хотел бы равномерно очистить веб-сайт и собрать X элементов, которые являются репрезентативными для всех продуктов, перечисленных на Amazon.
Кто-нибудь знает, как парсить сайт таким образом? Спасибо.
Это интересный подход. Я надеялся на что-то более невмешательство, когда паук мог бы свободно перемещаться по веб-сайту и перемещаться по нему сам. Тем не менее, я обязательно воспользуюсь этим методом. Спасибо!
Я помещаю свой комментарий в качестве ответа, чтобы другим, ищущим подобное решение, было проще.
Один из способов добиться этого — просмотреть каждую категорию (мебель, одежда, техника, автомобили и т. д.) и собрать там определенное количество предметов. У Amazon есть боковые/верхние панели с навигационными ссылками на разные категории, так что вы можете позволить им работать там.
Процесс будет следующим:
Однако такой подход не будет репрезентативным в пропорциях каждой категории в общем объеме продуктов Amazon. Попробуйте поискать метку «X результатов» для каждой категории, чтобы компенсировать это. Удачи с вашим проектом!
Вы можете пройтись по каждой категории (мебель, одежда, техника, автомобили и т. д.) и собрать там определенное количество предметов. Однако такой подход не будет репрезентативным в пропорциях каждой категории в общем объеме продуктов Amazon. Попробуйте найти метку «X результатов» для каждой категории, чтобы компенсировать это? Не знаю, как еще вы могли бы сделать этот проект, извините.