Скребок HTML в Php

Я занимался парсингом HTML в PHP с использованием регулярных выражений. Это работает, но результат непростой и хрупкий. Кто-нибудь использовал какие-либо пакеты, которые обеспечивают более надежное решение? Решение, управляемое конфигурацией, было бы идеальным, но я не придирчив.

Посмотрите ветку это - вопрос идет в том же направлении

— 29.08.2008 12:16

php html screen-scraping

29.08.2008 11:32

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Symfony Station Communiqué - 7 июля 2023 г

Это коммюнике первоначально появилось на Symfony Station .

Оживление вашего приложения Laravel: Понимание режима обслуживания

Здравствуйте, разработчики! В сегодняшней статье мы рассмотрим важный аспект управления приложениями, который часто упускается из виду в суете...

Установка и настройка Nginx и PHP на Ubuntu-сервере

В этот раз я сделаю руководство по установке и настройке nginx и php на Ubuntu OS.

Коллекции в Laravel более простым способом

Привет, читатели, сегодня мы узнаем о коллекциях. В Laravel коллекции - это способ манипулировать массивами и играть с массивами данных. Благодаря...

Как установить PHP на Mac

PHP - это популярный язык программирования, который используется для разработки веб-приложений. Если вы используете Mac и хотите разрабатывать...

44 797

Перейти к ответу Данный вопрос помечен как решенный

Ответы 7

Ответ принят как подходящий

Я бы порекомендовал PHP Simple HTML DOM Parser после того, как вы соскребли HTML со страницы. Он поддерживает недопустимый HTML и предоставляет очень простой способ обработки элементов HTML.

Предлагаемые сторонние альтернативы SimpleHtmlDom, которые фактически используют ДОМ вместо анализа строк: phpQuery, Zend_Dom, QueryPath и FluentDom.

— 10.10.2011 19:08

вы можете привести мне пример, как щелкнуть по любой ссылке на данной странице?

— 12.11.2013 11:51

29.08.2008 11:55

Если страница, которую вы очищаете, является допустимой X (HT) ML, то подойдет любой из Встроенные в PHP парсеры XML.

У меня не было особого успеха с библиотеками PHP для парсинга. Если вы любите приключения, вы можете попробовать простой. Я бы рекомендовал Hpricot для Ruby или Красивый суп для Python, которые являются парсерами отлично для HTML.

Если вы собираетесь разбирать особенно небрежный HTML, убедитесь, что вы не используете BeautifulSoup 3.1.x (используйте 3.0.x). 3.1.x использует htmllib в качестве парсера, что гораздо менее снисходительно, чем использование sgmllib в версии 3.0.x.

— 18.03.2009 04:33

29.08.2008 12:01

У меня были очень хорошие результаты с упомянутым выше Простой парсер Html DOM. А еще есть tidy Extension для PHP, который тоже очень хорошо работает.

29.08.2008 12:08

Мне было весело работать с htmlSQL, который не так уж и высококлассный, но с ним действительно просто работать.

поздний комментарий, но я только что нашел ваш ответ через google .. мне нравится! :)

— 17.08.2010 10:53

Это работает у вас даже сейчас? У меня вроде не работает ...

— 23.01.2014 20:31

29.08.2008 13:40

Используя PHP для очистки HTML, я бы рекомендовал cURL + regexp или cURL + некоторые парсеры DOM, хотя я лично использую cURL + regexp. Если вы хорошо разбираетесь в регулярных выражениях, иногда они точнее.

27.12.2008 12:11

Я бы также порекомендовал «Simple HTML DOM Parser». Это хороший вариант, особенно если вы знакомы с селекторами jQuery или JavaScript, тогда вы почувствуете себя как дома.

Я даже писал об этом в прошлом.

31.07.2009 23:43

Мне пришлось использовать curl на моем хосте 1and1.

http://www.quickscrape.com/ - это то, что я придумал, используя класс Simple DOM!

02.12.2010 09:51