



В прошлом я с большим успехом использовал BeautifulSoup для таких вещей.
В .NET вы можете использовать HTMLAgilityPack.
См. Этот предыдущий вопрос в StackOverflow для получения дополнительной информации.
Если вы хотите извлечь содержимое из разметки HTML, вам следует использовать какой-либо тип анализатора HTML. Для этого существует множество вариантов, и вот два, которые могут удовлетворить ваши потребности:
http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/
Зависит от того, какую обработку вы хотите выполнить. Вы можете указать Tidy сгенерировать XHTML, который является типом XML, что означает, что вы можете использовать для результатов все обычные инструменты XML, такие как XSLT и XQuery.
Если вы хотите обработать их в Microsoft Excel, вы сможете вырезать таблицу из HTML и поместить ее в файл, а затем открыть этот файл в Excel: он с радостью преобразует HTML-таблицу в страницу электронной таблицы. Затем вы можете сохранить его как CSV или как книгу Excel и т. д. (Вы даже можете использовать это на веб-сервере - верните таблицу HTML, но установите заголовок Content-Type на application/ms-vnd.excel: Excel откроет и импортирует таблицу и превратит ее в электронную таблицу.)
Если вы хотите, чтобы CSV передавался в базу данных, вы могли бы использовать Excel, как и раньше, или, если вы хотите автоматизировать процесс, вы можете написать программу, которая использует API-интерфейс навигации по XML по вашему выбору для итерации строк таблицы и сохраните их как CSV. Модули Python Elementtree и CSV упростят это.
Изучив предложения, я остановился на HtmlUnit.
С помощью HtmlUnit я смог настроить Java-код для открытия каждого HTML-файла в папке, перехода к тегу TABLE, запрашивать содержимое каждого столбца и извлекать данные, необходимые для создания файла CSV.
перебирать текст и использовать регулярное выражение :)