Python beautiful soup, очищающий отдельные страницы с одной страницы

Поэтому я планирую очистить этот веб-сайт, чтобы получить данные о составе каждой команды премьер-лиги. Может кто-нибудь помочь с тем, как я это сделаю? Под этим URL-адресом под заголовком «Премьер-лига» я вижу список команд внутри набора тегов пользовательского интерфейса.

Также я заметил, что URL каждой команды выглядит так - https://www.skysports.com/arsenal, а внутри этой страницы ссылка на команду выглядит как https://www.skysports.com/arsenal-squad.

Но это также верно и для команд не премьер-лиги.

Также сначала я смог очистить таблицу высшей лиги для команд, их очков и т.д. и поместить это в CSV… Так что, возможно, я мог бы использовать это, чтобы затем построить URL-адреса для получения данных отдельных команд. ? Ниже показано, что у меня было, например, в моем csv

Позиция, Команда, Pl, W, D, L, F, A, GD, Очки 1, Манчестер Сити, 9,7,2,0,26,3,23,23 2, Ливерпуль, 9,7,2,0,16,3,13,23

Используйте ссылки на главных страницах, чтобы определить правильный адрес страниц с подробностями, вместо того, чтобы угадывать URL.

awiebe 26.10.2018 03:53

Верно, я полагаю, что у меня возникли проблемы с визуализацией архитектуры того, как я буду это делать с самого начала. Мой вопрос действительно на высоком уровне, что мне нужно делать

anfield 26.10.2018 03:59
0
2
69
1

Ответы 1

Используйте ссылки на главных страницах, чтобы определить правильный адрес страниц с подробностями, вместо того, чтобы угадывать URL-адрес (который, как вы упомянули, не подходит для премьер-лиги).

Вам нужно использовать beautifulsoup следующим образом:

  1. Получите ссылку (a), которая ведет на нужную страницу с подробными сведениями.
  2. Получите href этой ссылки
  3. Если ссылка относительная, вам необходимо сопоставить ее с текущей страницей, поэтому извлеките путь из URL-адреса с помощью urllib, затем используйте newpath=os.abspath(os.path.join(curpath,href)), вставьте его обратно в URL-адрес вашего домена.
  4. Теперь у вас есть имя страницы с подробностями.

Вы можете придумать несколько разных случаев для того, на какой странице вы находитесь, поищите идентификатор или класс, которые встречаются только на странице, которую вы просматриваете, или строковый шаблон, чтобы определить, какой анализатор страницы использовать.

Спасибо. Теперь у меня есть все URL-адреса в списке. С красивым супом смогу ли я перейти к каждому URL из одной основной программы, а затем вытащить информацию о команде? Я не совсем уверен, как это сделать

anfield 27.10.2018 22:04

Другие вопросы по теме