Извлечь слова из текстового файла

Допустим, у вас есть такой текстовый файл: http://www.gutenberg.org/files/17921/17921-8.txt

Есть ли у кого-нибудь хороший алгоритм или открытый код для извлечения слов из текстового файла? Как получить все слова, избегая при этом специальных символов и сохраняя такие вещи, как «это» и т. д.

Я работаю на Яве. Спасибо

java text

10.11.2008 01:05

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами

В компьютерном программировании биты играют важнейшую роль в представлении и манипулировании данными на двоичном уровне. Побитовые операции...

Поднятие тревоги для долго выполняющихся методов в Spring Boot

Приходилось ли вам сталкиваться с требованиями, в которых вас могли попросить поднять тревогу или выдать ошибку, когда метод Java занимает больше...

Принятие принципов SOLID в Spring Boot: Создание обслуживаемых и масштабируемых приложений

Коллекции (ArrayList , HashSet , HashMap)

Полный курс Java для разработчиков веб-сайтов и приложений

Получите сертификат Java Web и Application Developer, используя наш курс.

26 833

Перейти к ответу Данный вопрос помечен как решенный

Ответы 5

Вы можете попробовать регулярное выражение, используя созданный вами шаблон, и подсчитать, сколько раз этот шаблон был найден.

10.11.2008 01:11

Псевдокод будет выглядеть так:

create words, a list of words, by splitting the input by whitespace
for every word, strip out whitespace and punctuation on the left and the right

Код на Python будет примерно таким:

words = input.split()
words = [word.strip(PUNCTUATION) for word in words]

где

PUNCTUATION = ",. \n\t\\\"'][#*:"

или любые другие символы, которые вы хотите удалить.

Я считаю, что у Java есть эквивалентные функции в классе String: Нить.split ().

Результат выполнения этого кода в тексте, который вы указали в своей ссылке:

>>> print words[:100]
['Project', "Gutenberg's", 'Manual', 'of', 'Surgery', 'by', 'Alexis', 
'Thomson', 'and', 'Alexander', 'Miles', 'This', 'eBook', 'is', 'for', 
'the', 'use', 'of', 'anyone', 'anywhere', 'at', 'no', 'cost', 'and', 
'with', 'almost', 'no', 'restrictions', 'whatsoever', 'You', 'may', 
'copy', 'it', 'give', 'it', 'away', 'or', 're-use', 'it', 'under', 
... etc etc.

Преимущество этого кода перед регулярными выражениями состоит в том, что это можно сделать просто за один проход.

— 10.11.2008 01:43

Да, в Java есть метод «разделения», но он не имеет эквивалента методу «полосы».

— 10.11.2008 01:43

10.11.2008 01:16

В принципе, вы хотите сопоставить

([A-Za-z]) + ('([A-Za-z]) *)?

Правильно?

10.11.2008 01:20

Ответ принят как подходящий

Похоже, это правильная работа для регулярных выражений. Вот некоторый код Java, чтобы дать вам представление, если вы не знаете, с чего начать:

String input = "Input text, with words, punctuation, etc. Well, it's rather short.";
Pattern p = Pattern.compile("[\\w']+");
Matcher m = p.matcher(input);

while ( m.find() ) {
    System.out.println(input.substring(m.start(), m.end()));
}

Шаблон [\w']+ соответствует всем символам слова и апострофу несколько раз. Строка примера будет напечатана пословно. Взгляните на Документация по классу Java Pattern, чтобы узнать больше.

Мне пришлось немного изменить регулярное выражение, чтобы не включать числа, подчеркивание и слова, начинающиеся с цитаты, но в остальном - хорошо!

— 10.11.2008 02:10

Мне пришлось убежать от \ w вот так: Pattern.compile("[\\w']+");

— 20.03.2012 19:50

Это немного не по теме, но как исключить одинарные кавычки в начале или в конце слова?

— 21.03.2012 03:04

@ScrollerBlaster Для этого вы можете использовать границы слов. Pattern.compile("\\b[\\w']+\\b");

— 21.03.2012 03:09

Pattern.compile("\\w[\\w-]+('\\w+)?") поддерживает слова с дефисом и даже слова с несколькими дефисами (sous-vide, mise-en-scène), а также поддерживает апостроф, но не в начале слова, и за ним должно следовать больше букв слова (I've, sous-vide'n). Возможно, вы захотите разрешить больше букв после апострофа (т.е. включить притяжательные формы множественного числа), и в этом случае используйте Pattern.compile("\\w[\\w-]+('\\w*)?").

— 26.01.2013 02:14

он распознает числа как слова, как их удалить? Не узнавая «я».

— 06.01.2014 01:07

10.11.2008 01:20

Вот хороший подход к вашей проблеме: Эта функция получает ваш текст в качестве входных данных и возвращает массив всех слов внутри данного текста.

private ArrayList<String> get_Words(String SInput){

    StringBuilder stringBuffer = new StringBuilder(SInput);
    ArrayList<String> all_Words_List = new ArrayList<String>();

    String SWord = "";
    for(int i=0; i<stringBuffer.length(); i++){
        Character charAt = stringBuffer.charAt(i);
        if (Character.isAlphabetic(charAt) || Character.isDigit(charAt)){
            SWord = SWord + charAt;
        }
        else{
            if (!SWord.isEmpty()) all_Words_List.add(new String(SWord));
            SWord = "";
        }

    }

    return all_Words_List;

}

10.08.2012 12:35

Другие вопросы по теме

.NET C# - произвольный доступ к текстовым файлам - нелегко?

Чтение текстовых значений в переменные matlab из файлов ASCII

JS Regex для человеческих имен

Инструмент для поиска повторяющихся разделов в текстовом (XML) файле?

Алгоритм поиска статей с похожим текстом

Остановить перенос текста с помощью NSLayoutManager

Насколько неэффективнее текст (капли), чем varchar / nvarchar?

Код C# для преобразования документа XHTML в обычный текст

Получить выделенный текст из элемента управления веб-браузера в

Как обнаружить повторяющийся текст с некоторой нечеткостью

Извлечь слова из текстового файла

Ответы 5

Другие вопросы по теме

Похожие вопросы