Скребок HTML в Php

Я занимался парсингом HTML в PHP с использованием регулярных выражений. Это работает, но результат непростой и хрупкий. Кто-нибудь использовал какие-либо пакеты, которые обеспечивают более надежное решение? Решение, управляемое конфигурацией, было бы идеальным, но я не придирчив.

Посмотрите ветку это - вопрос идет в том же направлении

crono 29.08.2008 12:16
Стоит ли изучать PHP в 2026-2027 годах?
Стоит ли изучать PHP в 2026-2027 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Symfony Station Communiqué - 7 июля 2023 г
Symfony Station Communiqué - 7 июля 2023 г
Это коммюнике первоначально появилось на Symfony Station .
Оживление вашего приложения Laravel: Понимание режима обслуживания
Оживление вашего приложения Laravel: Понимание режима обслуживания
Здравствуйте, разработчики! В сегодняшней статье мы рассмотрим важный аспект управления приложениями, который часто упускается из виду в суете...
Установка и настройка Nginx и PHP на Ubuntu-сервере
Установка и настройка Nginx и PHP на Ubuntu-сервере
В этот раз я сделаю руководство по установке и настройке nginx и php на Ubuntu OS.
Коллекции в Laravel более простым способом
Коллекции в Laravel более простым способом
Привет, читатели, сегодня мы узнаем о коллекциях. В Laravel коллекции - это способ манипулировать массивами и играть с массивами данных. Благодаря...
Как установить PHP на Mac
Как установить PHP на Mac
PHP - это популярный язык программирования, который используется для разработки веб-приложений. Если вы используете Mac и хотите разрабатывать...
39
1
44 797
7
Перейти к ответу Данный вопрос помечен как решенный

Ответы 7

Ответ принят как подходящий

Я бы порекомендовал PHP Simple HTML DOM Parser после того, как вы соскребли HTML со страницы. Он поддерживает недопустимый HTML и предоставляет очень простой способ обработки элементов HTML.

Предлагаемые сторонние альтернативы SimpleHtmlDom, которые фактически используют ДОМ вместо анализа строк: phpQuery, Zend_Dom, QueryPath и FluentDom.

Gordon 10.10.2011 19:08

вы можете привести мне пример, как щелкнуть по любой ссылке на данной странице?

sagar junnarkar 12.11.2013 11:51

Если страница, которую вы очищаете, является допустимой X (HT) ML, то подойдет любой из Встроенные в PHP парсеры XML.

У меня не было особого успеха с библиотеками PHP для парсинга. Если вы любите приключения, вы можете попробовать простой. Я бы рекомендовал Hpricot для Ruby или Красивый суп для Python, которые являются парсерами отлично для HTML.

Если вы собираетесь разбирать особенно небрежный HTML, убедитесь, что вы не используете BeautifulSoup 3.1.x (используйте 3.0.x). 3.1.x использует htmllib в качестве парсера, что гораздо менее снисходительно, чем использование sgmllib в версии 3.0.x.

Tom 18.03.2009 04:33

У меня были очень хорошие результаты с упомянутым выше Простой парсер Html DOM. А еще есть tidy Extension для PHP, который тоже очень хорошо работает.

Мне было весело работать с htmlSQL, который не так уж и высококлассный, но с ним действительно просто работать.

поздний комментарий, но я только что нашел ваш ответ через google .. мне нравится! :)

Ben 17.08.2010 10:53

Это работает у вас даже сейчас? У меня вроде не работает ...

Dinesh 23.01.2014 20:31

Используя PHP для очистки HTML, я бы рекомендовал cURL + regexp или cURL + некоторые парсеры DOM, хотя я лично использую cURL + regexp. Если вы хорошо разбираетесь в регулярных выражениях, иногда они точнее.

Я бы также порекомендовал «Simple HTML DOM Parser». Это хороший вариант, особенно если вы знакомы с селекторами jQuery или JavaScript, тогда вы почувствуете себя как дома.

Я даже писал об этом в прошлом.

Мне пришлось использовать curl на моем хосте 1and1.

http://www.quickscrape.com/ - это то, что я придумал, используя класс Simple DOM!

Другие вопросы по теме