у меня есть файл XLSX с этим содержимым
Я скачал tika-app для тестирования:
java -jar tika-app-2.9.2.jar --metadata test.xlsx
Content-Length: 9217
Content-Type: application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
X-TIKA:Parsed-By: org.apache.tika.parser.DefaultParser
X-TIKA:Parsed-By: org.apache.tika.parser.microsoft.ooxml.OOXMLParser
X-TIKA:origResourceName: C:\Users\users\Documents\
dc:creator: daniele grillo
dc:publisher:
dcterms:created: 2024-04-17T07:44:01Z
dcterms:modified: 2024-04-17T13:58:35Z
extended-properties:AppVersion: 16.0300
extended-properties:Application: Microsoft Excel
extended-properties:Company:
extended-properties:DocSecurityString: None
meta:last-author: daniele grillo
protected: false
resourceName: test.xlsx
Итак, я запускаю команду
java -jar tika-app-2.9.2.jar --text test.xlsx
и это результат
Foglio1
date name
2/9/72 one
2/10/98 two
1/3/09 three
1/1/00 four
4/11/00 five
Я прочитал, что знаю, что можно передать tika-config.xml для управления синтаксическим анализатором следующим образом:
java -jar /tika-app-2.9.2.jar --text test.xlsx --config=tika-config.xml
Поскольку для даты я бы вывел следующий результат: дд/мм/гггг, как в формате .XLSX.
Возможно? Если да, то как?
Я пытался использовать этот tika-config.xml, но результат тот же:
<?xml version = "1.0" encoding = "UTF-8"?>
<properties>
<parsers>
<parser class = "org.apache.tika.parser.DefaultParser">
<mime>application/vnd.openxmlformats-officedocument.spreadsheetml.sheet</mime>
<parser-exclude class = "org.apache.tika.parser.microsoft.ooxml.OOXMLParser"/>
</parser>
</parsers>
<dateFormats>
<dateFormat>dd/MM/yyyy</dateFormat>
</dateFormats>
</properties>
OOXMLParser
имеет метод setDateFormatOverride(String)
, унаследованный от AbstractOfficeParser.
Этот параметр можно установить в <params>
парсера.
<?xml version = "1.0" encoding = "UTF-8"?>
<properties>
<parsers>
<parser class = "org.apache.tika.parser.DefaultParser"/>
<parser class = "org.apache.tika.parser.microsoft.ooxml.OOXMLParser">
<params>
<param name = "dateFormatOverride" type = "string">dd/mm/yyyy</param>
</params>
</parser>
</parsers>
</properties>
Примечание. Опцию --config
следует указывать перед опцией --text
:
java -jar tika-app-2.9.2.jar --config=tika-config.xml --text test.xlsx
Фантастика!!! работа!