Я считаю В кавычках от Google действительно отличным приложением, и, как специалист по CS, я должен понимать, как оно работает. Как, по вашему мнению, он превращает новостные статьи в список цитат, приписываемых конкретным людям? Конечно, есть некоторые ошибки, но их алгоритм кажется более умным, чем простая эвристика или несколько регулярных выражений. Например, цитата может быть приписана кому-то, даже если его / ее имя было упомянуто только в последнем абзаце.
Есть идеи? Есть какие-нибудь известные статьи по этому поводу?





У меня нет бумаги, но есть идея. Google берет цитаты от множества людей. Легко для них с помощью Новостей Google и других средств массовой информации.
У них другой набор предметов. Google сопоставляет набор тем с набором людей (оба набора конечны). Последний набор - это все цитаты,
Если вы заметили, тема содержит 1 слово, выделенное в цитате. Таким образом, существует связь между набором тем и набором цитат для каждой группы людей. Поскольку Google является хозяином информации, должно быть очень легко получить связь между всем этим набором.
У меня нет ответа на ваш вопрос, но я предлагаю вам спросить инженера Google напрямую через Модератор Google. Вы можете не получить ответ быстро (или вообще не получить), но там вы получите точный ответ.
Это просто, он проверяет слова, но между ними может быть что угодно, если они все еще в порядке. "Привет мир!" станет регулярным выражением / hello [.] * world /