Выделение больших фрагментов текста

Я подумываю обобщить аудио видео на Youtube с использованием искусственного интеллекта, машинного обучения в качестве хобби-проекта.

Я могу извлечь автоматически сгенерированный текст закрытых титров как CLOB, как указано ниже:

good day fellow investors I don't think I ever mentioned it but I'm subscribed to almost all out of there Bloomberg Wall Street Journal Morningstar and many others that I don't want to mention not to public publicize them because most don't deserve my money but still if even if I get a little bit from there it's good however something nice that came in the email yesterday was of course Wall Street Journal and I'm subscribed to their daily shot which gives a lot of slides about what's going on in the economy markets etc which is always nice to look at on a daily basis

Но, как видите, в нем вообще нет знаков препинания. Я планирую использовать библиотеку Python NLTK, но токенизатор предложений не может разбить текст на какие-либо более мелкие куски.

Я новичок в НЛП (как вы можете догадаться), может ли кто-нибудь указать мне на статью, желательно с инструкциями по «расстановке акцентов в куске текста». Я не получаю особой помощи от поиска в Google (моя проблема).

Пожалуйста, предложите путь вперед, спасибо.

Ваш вопрос здесь не особо подходит, но это достойный вопрос. Пожалуйста, проверьте "Какой сайт?"

Prune 26.10.2018 02:47
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
0
1
130
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Нет пакета NLTK / SpaCy, который мог бы напрямую решить вашу задачу.

Я бы предложил использовать один из трех методов глубокого обучения, упомянутых в статье это LREC (Che et al, 2016). Вы должны представить свою проблему как задачу классификации, где вы должны предсказать, следует ли за словом в последовательности знак препинания.

Сам документ использует подмножество последовательности, <w(n-m) ... w(n-1), w, w(n+1), ... w(n+m)>, для учета контекста, использует их векторы слов и обучает трем различным моделям, каждая из которых имеет 2, 3 или 4 выходных класса (O: без знаков препинания, PERIOD: точки, полу -двоеточие, восклицательные знаки, COMMA: запятые, тире и двоеточия, QUESTION MARK: знаки q).

Первая модель использует простую DNN, вторая - CNN, а третья - разновидность CNN во второй модели. Если вы решите использовать только периоды (уменьшив количество классов), простая модель DNN, как сообщается, дает F1-баллы ~ 60%.

Что касается кода, вы можете запросить его у авторов. Или, если вы хотите заняться этим в качестве хобби, вы можете реализовать это с нуля самостоятельно.

Другие вопросы по теме