Как воспроизвести токенизацию sklearn CountVectorizer по умолчанию только с регулярным выражением?

Я не хочу использовать CountVectorizer, но попытаюсь воспроизвести токенизацию. Я знаю, что он удаляет некоторые специальные символы и переводит их в нижний регистр. Я пробовал это регулярное выражение r'[\W_]+' и имеет ' ' в качестве разделителя, но все же не могу его воспроизвести. Есть идеи?

Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
1
0
247
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Вместо этого используйте регулярное выражение '(?u)\\b\\w\\w+\\b'.

Чтобы воспроизвести:

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()

text = "This a simple example. And this is another."
text_transformed = cv.fit_transform([text])
vocab = sorted(cv.vocabulary_)
counts = text_transformed.toarray()
print(pd.DataFrame(counts, columns = vocab))

   and  another  example  is  simple  this
0    1        1        1   1       1     2

Можно было бы сделать:

import re
from collections import Counter

regex = re.compile('(?u)\\b\\w\\w+\\b')
tokens = re.findall(regex, text.lower()) # notice lowercase=True param
vocab = sorted(set(tokens))
counts = Counter(tokens)
counts = [counts[key] for key in sorted(counts.keys())]
#vocab, counts = list(zip(*sorted(counter.items()))) # one liner with asterisk unpacking
print(pd.DataFrame([counts], columns = vocab))

   and  another  example  is  simple  this
0    1        1        1   1       1     2

Объяснение:

CountVectorizer использует параметр token_pattern='(?u)\\b\\w\\w+\\b', который является шаблоном регулярного выражения, для извлечения токенов из текста:

print(cv)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
                lowercase=True, max_df=1.0, max_features=None, min_df=1,
                ngram_range=(1, 1), preprocessor=None, stop_words=None,
                strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, vocabulary=None)

Предоставив это регулярное выражение re.findall, вы добьетесь аналогичной токенизации, и, считая дальше, вы получите вывод CountVectorizer

Другие вопросы по теме