Выравнивание предложений для машинного перевода в google automl

Есть ли в Google AutoML инструмент для выравнивания предложений?

У меня есть много документов на английском и итальянском языках, которые переведены вручную «почти» предложение за предложением, поэтому должно быть легко обнаружить переведенные предложения автоматически. Документы грамматически хорошо написаны относительно короткими: 5-10 предложений.

Есть ли такой инструмент в дорожной карте и какой инструмент / подход можно использовать, пока он не будет включен в облачную службу AutoML?

Вы что-нибудь нашли?

echan00 26.09.2018 04:44

Не гуглом, в итоге я использовал hunalign (github.com/danielvarga/hunalign)

Yasen 26.09.2018 12:13
1
2
163
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Я нашел в Интернете несколько вариантов для этого:

https://github.com/rsennrich/Bleualign

https://github.com/machinalis/yalign

https://github.com/danielvarga/hunalign

https://github.com/rali-udem/yasa

https://github.com/cocoxu/Shakespeare

https://www.microsoft.com/en-us/download/details.aspx?id=52608

http://mi.eng.cam.ac.uk/~wjb31/distrib/mttkv1/

http://champollion.sourceforge.net/

Спасибо, я попробовал bleualign и нашел его непригодным для использования - дал игрушечный пример из 4-5 предложений, и выравнивание было испорчено. В итоге я использовал hunalign с некоторыми настраиваемыми порогами на основе моих данных.

Yasen 27.09.2018 08:59

Другие вопросы по теме