Как лучше всего извлечь содержимое таблицы из группы файлов HTML?

После очистки папки с файлами HTML с помощью TIDY, как можно извлечь содержимое таблиц для дальнейшей обработки?

Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами
Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами
В компьютерном программировании биты играют важнейшую роль в представлении и манипулировании данными на двоичном уровне. Побитовые операции...
Поднятие тревоги для долго выполняющихся методов в Spring Boot
Поднятие тревоги для долго выполняющихся методов в Spring Boot
Приходилось ли вам сталкиваться с требованиями, в которых вас могли попросить поднять тревогу или выдать ошибку, когда метод Java занимает больше...
Полный курс Java для разработчиков веб-сайтов и приложений
Полный курс Java для разработчиков веб-сайтов и приложений
Получите сертификат Java Web и Application Developer, используя наш курс.
1
0
2 300
6
Перейти к ответу Данный вопрос помечен как решенный

Ответы 6

В прошлом я с большим успехом использовал BeautifulSoup для таких вещей.

В .NET вы можете использовать HTMLAgilityPack.

См. Этот предыдущий вопрос в StackOverflow для получения дополнительной информации.

Если вы хотите извлечь содержимое из разметки HTML, вам следует использовать какой-либо тип анализатора HTML. Для этого существует множество вариантов, и вот два, которые могут удовлетворить ваши потребности:

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

Ответ принят как подходящий

Зависит от того, какую обработку вы хотите выполнить. Вы можете указать Tidy сгенерировать XHTML, который является типом XML, что означает, что вы можете использовать для результатов все обычные инструменты XML, такие как XSLT и XQuery.

Если вы хотите обработать их в Microsoft Excel, вы сможете вырезать таблицу из HTML и поместить ее в файл, а затем открыть этот файл в Excel: он с радостью преобразует HTML-таблицу в страницу электронной таблицы. Затем вы можете сохранить его как CSV или как книгу Excel и т. д. (Вы даже можете использовать это на веб-сервере - верните таблицу HTML, но установите заголовок Content-Type на application/ms-vnd.excel: Excel откроет и импортирует таблицу и превратит ее в электронную таблицу.)

Если вы хотите, чтобы CSV передавался в базу данных, вы могли бы использовать Excel, как и раньше, или, если вы хотите автоматизировать процесс, вы можете написать программу, которая использует API-интерфейс навигации по XML по вашему выбору для итерации строк таблицы и сохраните их как CSV. Модули Python Elementtree и CSV упростят это.

Изучив предложения, я остановился на HtmlUnit.

С помощью HtmlUnit я смог настроить Java-код для открытия каждого HTML-файла в папке, перехода к тегу TABLE, запрашивать содержимое каждого столбца и извлекать данные, необходимые для создания файла CSV.

перебирать текст и использовать регулярное выражение :)

http://www.knowledgehouse.sg

Другие вопросы по теме