Мне удалось успешно запустить предварительно обученную модель TextSum (Tensorflow 1.2.1). Вывод состоит из резюме статей CNN и Dailymail (которые перед тестированием разбиты на бункеры).
Я также смог создать вышеупомянутые тестовые данные формата bin для статей и файла словаря CNN / Dailymail (согласно инструкциям здесь). Однако я не могу создать свои собственные тестовые данные, чтобы проверить, насколько хороша сводка. Я попытался изменить код make_datafiles.py
, чтобы удалить закодированные значения. Я могу создавать токенизированные файлы, но следующий шаг, похоже, не работает. Было бы здорово, если бы кто-нибудь помог мне понять, для чего используется url_lists
. В readme на github -
«Для каждого списка URL-адресов all_train.txt, all_val.txt и all_test.txt соответствующие токенизированные истории считываются из файла в нижнем регистре и записываются в сериализованные двоичные файлы train.bin, val.bin и test.bin. Они будут помещены во вновь созданный каталог finished_files.»
Как URL-адрес, такой как http://web.archive.org/web/20150401100102id_/http://www.cnn.com/2015/04/01/europe/france-germanwings-plane-crash-main/, сопоставляется с соответствующей историей в моей папке данных? Если кому-то это удалось, дайте мне знать, как это сделать. Заранее спасибо!
Обновление: мне удалось выяснить, как использовать собственные данные для создания файлов bin для тестирования (и вообще избегать использования url_lists
).
Это будет полезно - https://github.com/dondon2475848/make_datafiles_for_pgn
Обновлю ответ, как только выясню, как исправить для этого ROGUE scoring.