Ошибка загрузки DBPedia Turtle в Virtuoso с помощью Docker

Я скачал черепаховые файлы DBPedia с их фреймворком извлечения (https://github.com/dbpedia/извлечение-фреймворк).

Затем я использовал образ докера tenforce/virtuoso:1.3.2-virtuoso7.2.2 после извлечения всего ttl.bz2 в папку toLoad.

После полной загрузки проверил isql с select * from DB.DBA.LOAD_LIST; и получил ошибку одного из файлов:

2 2019.2.2 11:31.43 69876000 2019.2.2 11:31.44 521623000 0 NULL 37000 [Vectorized Turtle loader] SP029: TURTLE RDF loader, line 172395: syntax error

Виртуозная конечная точка (http://локальный:8890/sparql) подключена к сети, но запросы не возвращают правильные результаты.

Вы знаете, что я могу сделать, чтобы исправить эту ошибку?

ОБНОВЛЕНИЕ: более новые tenforce/virtuoso:1.3.2-virtuoso7.2.5.1 и openlink/virtuoso-opensource-7 также были протестированы, что дало тот же результат.

ОБНОВЛЕНИЕ 2: Строка 172395 этого файла выглядит нормально: <http://pt.dbpedia.org/resource/Reino_de_Roma> <http://dbpedia.org/ontology/governmentType> <http://pt.dbpedia.org/resource/Monarquia> <http://pt.wikipedia.org/wiki/Reino_de_Roma?oldid=53119289&ns=0> .

Развертывание модели машинного обучения с помощью Flask - Angular в Kubernetes
Развертывание модели машинного обучения с помощью Flask - Angular в Kubernetes
Kubernetes - это портативная, расширяемая платформа с открытым исходным кодом для управления контейнерными рабочими нагрузками и сервисами, которая...
Как создать PHP Image с нуля
Как создать PHP Image с нуля
Сегодня мы создадим PHP Image from Scratch для того, чтобы легко развернуть базовые PHP-приложения. Пожалуйста, имейте в виду, что это разработка для...
0
0
163
1

Ответы 1

Как я сказал в ваш дубликат поста на github --

I would start by using tenforce/virtuoso:latest or tenforce/virtuoso:virtuoso7.2.5 or tenforce/virtuoso:1.3.2-virtuoso7.2.5, all of which should be based on Virtuoso 7.2.5.1 (from August 2018), rather than the rather elderly tenforce/virtuoso:1.3.2-virtuoso7.2.2 which is based on the similarly elderly Virtuoso 7.2.2 (from December 2015).

Прошу прощения за дублирование. Я попытался использовать образ tenforce/virtuoso:1.3.2-virtuoso7.2.5.1, но проблема осталась.

staticdev 14.02.2019 17:21

Далее следует попробовать последнюю версию Официальный образ докера OpenLink, openlink/virtuoso-opensource-7, основанную на Virtuoso 7.2.6-rc1 (от декабря 2018 года). Если проблемы все еще не устранены, я предлагаю вам обратиться к (также общедоступному, но более целенаправленному) Форум сообщества OpenLink, где мы можем работать более непосредственно с вами.

TallTed 14.02.2019 17:38

@TailTed та же проблема с той же строкой с использованием virtuoso-opensource-7. Я думаю, что может быть что-то не так с извлеченным файлом черепахи.

staticdev 16.02.2019 17:24

@StaticX - Да. Я заметил, что вы сказали, что извлекли «все ttl.bz2 в файл toLoad» — это один гигантский файл TTL? Если это так, я хотел бы увидеть 10 или около того строк около 172395 (итак, 172390-172400). Также обратите внимание, что, вообще говоря, вам лучше загрузить кучу файлов меньшего размера с нашим инструмент для массовой загрузки, что также поможет сузить проблему (и, таким образом, помочь с исправлением оригинала).

TallTed 18.02.2019 04:30

Извините, это была просто ошибка в написании (обновлено). Где вы читаете «файл», это «папка». Для каждого ttl.bz2 в папке toLoad есть один TTL.

staticdev 18.02.2019 13:03

Итак, я хотел бы увидеть эти строки из этого файла (это не обязательно должен быть весь файл), либо добавленные к вашему вопросу в пределах кода, либо прикрепленные к вашему вопросу на другом сайте.

TallTed 18.02.2019 23:56

Обновлено вместе с линией. Я не вижу никакой разницы с этой строкой конкретно.

staticdev 19.02.2019 01:37

Ну, это недействительная черепаха, у которой всего 3 элемента в строке (подлежащее, сказуемое, объект). Это может быть строка сериализации N-квадроцикл.

TallTed 19.02.2019 15:10

это немного странно, так как полный файл имеет такую ​​структуру. И ошибки в предыдущих строках нет. Другой пример строки: <pt.dbpedia.org/resource/Afeganistão> <dbpedia.org/ontology/официальный язык> <pt.dbpedia.org/resource/Língua_dari> .

staticdev 21.02.2019 22:22

В вашем новом примере в строке есть элементы три (вещи, заключенные в угловые скобки), а не четыре. Разметка, необходимая для ясного отображения этого, не будет работать в этой ветке комментариев; пожалуйста, посмотрите на ветка на гитхабе.

TallTed 22.02.2019 15:26

Ясно... тогда может быть проблема с моим извлечением dbpedia.

staticdev 23.02.2019 13:59

В зависимости от вашего проекта вы можете рассмотреть вариант загрузка и работа с дампами DBpedia...

TallTed 24.02.2019 03:07

К сожалению, мне нужны более свежие данные. Но мне удалось заставить его работать, используя некоторые команды постобработки перед загрузкой Virtuoso: github.com/dbpedia/databus-maven-plugin/blob/master/dbpedia/‌​… Вы можете изменить свой ответ, чтобы я его принял. Спасибо.

staticdev 25.02.2019 12:36

Ваша ссылка databus-maven-plugin 404, и непонятно, какие команды постобработки вы запускали. Возможно, было бы лучше опубликовать эти подробности в вашем выпуске github с полной разметкой и подробностями, не ограничиваясь длиной комментария и разметкой здесь...

TallTed 25.02.2019 15:24

Другие вопросы по теме