Как лучше всего извлечь содержимое таблицы из группы файлов HTML?

После очистки папки с файлами HTML с помощью TIDY, как можно извлечь содержимое таблиц для дальнейшей обработки?

16.09.2008 05:53

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами

В компьютерном программировании биты играют важнейшую роль в представлении и манипулировании данными на двоичном уровне. Побитовые операции...

Поднятие тревоги для долго выполняющихся методов в Spring Boot

Приходилось ли вам сталкиваться с требованиями, в которых вас могли попросить поднять тревогу или выдать ошибку, когда метод Java занимает больше...

Принятие принципов SOLID в Spring Boot: Создание обслуживаемых и масштабируемых приложений

Коллекции (ArrayList , HashSet , HashMap)

Полный курс Java для разработчиков веб-сайтов и приложений

Получите сертификат Java Web и Application Developer, используя наш курс.

2 300

Перейти к ответу Данный вопрос помечен как решенный

Ответы 6

В прошлом я с большим успехом использовал BeautifulSoup для таких вещей.

16.09.2008 05:56

В .NET вы можете использовать HTMLAgilityPack.

См. Этот предыдущий вопрос в StackOverflow для получения дополнительной информации.

16.09.2008 05:59

Если вы хотите извлечь содержимое из разметки HTML, вам следует использовать какой-либо тип анализатора HTML. Для этого существует множество вариантов, и вот два, которые могут удовлетворить ваши потребности:

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

16.09.2008 06:03

Ответ принят как подходящий

Зависит от того, какую обработку вы хотите выполнить. Вы можете указать Tidy сгенерировать XHTML, который является типом XML, что означает, что вы можете использовать для результатов все обычные инструменты XML, такие как XSLT и XQuery.

Если вы хотите обработать их в Microsoft Excel, вы сможете вырезать таблицу из HTML и поместить ее в файл, а затем открыть этот файл в Excel: он с радостью преобразует HTML-таблицу в страницу электронной таблицы. Затем вы можете сохранить его как CSV или как книгу Excel и т. д. (Вы даже можете использовать это на веб-сервере - верните таблицу HTML, но установите заголовок Content-Type на application/ms-vnd.excel: Excel откроет и импортирует таблицу и превратит ее в электронную таблицу.)

Если вы хотите, чтобы CSV передавался в базу данных, вы могли бы использовать Excel, как и раньше, или, если вы хотите автоматизировать процесс, вы можете написать программу, которая использует API-интерфейс навигации по XML по вашему выбору для итерации строк таблицы и сохраните их как CSV. Модули Python Elementtree и CSV упростят это.

16.09.2008 19:13

Изучив предложения, я остановился на HtmlUnit.

С помощью HtmlUnit я смог настроить Java-код для открытия каждого HTML-файла в папке, перехода к тегу TABLE, запрашивать содержимое каждого столбца и извлекать данные, необходимые для создания файла CSV.

18.09.2008 23:15

перебирать текст и использовать регулярное выражение :)

http://www.knowledgehouse.sg

17.11.2008 05:40