Как обеспечить, чтобы пользователь отправлял только английский текст

Я создаю проект, связанный с обработкой естественного языка, поскольку модуль nlp в настоящее время работает только с английским текстом, поэтому я должен убедиться, что отправленный пользователем контент (не длинный, всего несколько слов) на английском языке. Существуют ли устоявшиеся способы достижения этого? Предпочтительнее использовать Python или Javascript.

javascript python nlp

13.10.2008 11:32

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Улучшение производительности загрузки с помощью Google Tag Manager и атрибута Defer

В настоящее время производительность загрузки веб-сайта имеет решающее значение не только для удобства пользователей, но и для ранжирования в...

Безумие обратных вызовов в javascript [JS]

Здравствуйте! Юный падаван 🚀. Присоединяйся ко мне, чтобы разобраться в одной из самых запутанных концепций, когда вы начинаете изучать мир...

Система управления парковками с использованием HTML, CSS и JavaScript

Веб-сайт по управлению парковками был создан с использованием HTML, CSS и JavaScript. Это простой сайт, ничего вычурного. Основная цель -...

JavaScript Вопросы с множественным выбором и ответы

Если вы ищете платформу, которая предоставляет вам бесплатный тест JavaScript MCQ (Multiple Choice Questions With Answers) для оценки ваших знаний,...

1 018

Перейти к ответу Данный вопрос помечен как решенный

Ответы 10

Вы можете разбить фразу на слова и проверить словарь (некоторые из них можно загрузить, это может представлять интерес), но для этого потребуется, чтобы используемый вами словарь был достаточно хорош.

Он также упадет с именами собственными (например, моего имени нет в словаре).

13.10.2008 11:39

Ответ принят как подходящий

Если содержание достаточно длинное, я бы предложил немного частотный анализ на письмах.

Но для нескольких слов, я думаю, лучше всего сравнить их с английским словарем и принять ввод, если половина из них совпадает.

Ваша вторая идея исключила бы практически все комментарии на YouTube.

— 17.07.2009 21:52

@Tyson, Отлично, еще одно преимущество, о котором я не думал ;-)

— 19.07.2009 21:15

13.10.2008 11:47

Пытаться:

http://wordlist.sourceforge.net/

Список английских слов.

Вам нужно будет быть осторожным с именами, например «Канберра» или «Билл Клинтон». Они не появятся в списке слов. Я предлагаю просто проверить, является ли первая буква заглавной в качестве первой попытки.

13.10.2008 11:52

Я думаю, что наиболее эффективным способом было бы попросить пользователей отправлять только английский текст :)

Вы можете отобразить раскрывающийся список выбора языка над текстовой областью с английским / другим в качестве вариантов. Когда пользователь выбирает «Другое», отключите текстовую область с сообщением, что поддерживается только английский язык [на данный момент].

Но вы должны это проверить, иначе у модуля nlp возникнут проблемы.

— 13.10.2008 12:01

Да, ты прав. Но в таких приложениях часто полезно усилить правило «Мусор на входе, мусор на выходе», чтобы было меньше ошибок пользователя.

— 13.10.2008 12:04

13.10.2008 11:58

Проверьте Таблица распознавания языков

Есть ли известный алгоритм использования этой диаграммы? Я имею в виду, будете ли вы подсчитывать баллы по каждому языку, а затем сортировать результат? Или мы можем использовать пороговое значение для каждого языка?

— 13.10.2008 12:46

13.10.2008 12:05

Попробуйте статистическое распознавание языка на основе n-граммов. Это связь для демонстрации алгоритма, использующего эту технику, там также есть ссылка на статью, описывающую алгоритм. Попробуйте демо-версию, она неплохо работает даже с очень короткими текстами (3-4 слова).

13.10.2008 12:22

Вы уже выполняете НЛП, если ваш модуль не понимает, на каком языке был текст, значит, либо модуль не работает, либо ввод был на неправильном языке.

13.10.2008 13:05

Расширения Переключатель словарей Firefox имеют возможность определять правильный словарь по мере ввода. Я думаю, он проверяет слова по установленным словарям и выбирает тот, который дает меньше ошибок ...

Вы не можете ожидать, что все слова текста будут в словаре: сокращения, собственные существительные, опечатки ... Кроме того, некоторые слова являются общими для нескольких языков: французская рок-группа даже сделала названия своих дисков, чтобы они имели ( разные), что означает как на французском, так и на английском языках. Так что это статистическая вещь: если в хорошем английском словаре найдено более x% слов, скорее всего, это типы пользователей на этом языке (даже если есть ошибки, как, вероятно, в этом ответе, поскольку я не являюсь родным английским) .

13.10.2008 13:10

У Google есть javascript API, в котором есть реализация определения языка. Я только тестировал его, никогда не использовал в продакшене.

http://code.google.com/apis/ajaxlanguage/documentation/#Detect

13.10.2008 19:10

Возможно, вам поможет статья "Убедитесь, что пользователь отправляет только английский текст [PHP]". Код написан на PHP, но достаточно мал, чтобы его можно было легко переписать.

17.07.2009 21:40

Другие вопросы по теме

Есть ли лучший способ получить именованный ряд констант (перечисление) в Python?

Как мне эмулировать именованные параметры printf Python в Ruby?

Какую библиотеку AES использовать в Ruby / Python?

Как лучше всего избежать строк Python в PHP?

Как я могу искать вопросы о переполнении стека из скрипта?

Как проверить, находится ли строка в Python в ASCII?

MySQLdb время ожидания выполнения

Какой самый простой способ / лучшие учебники познакомиться с SQLAlchemy?

Как избежать вычислений каждый раз при перезагрузке модуля Python

Какова временная сложность извлечения элементов из списка в Python?

Как обеспечить, чтобы пользователь отправлял только английский текст

Ответы 10

Другие вопросы по теме

Похожие вопросы