Я не хочу использовать CountVectorizer
, но попытаюсь воспроизвести токенизацию. Я знаю, что он удаляет некоторые специальные символы и переводит их в нижний регистр. Я пробовал это регулярное выражение r'[\W_]+'
и имеет ' '
в качестве разделителя, но все же не могу его воспроизвести. Есть идеи?
Вместо этого используйте регулярное выражение '(?u)\\b\\w\\w+\\b'
.
Чтобы воспроизвести:
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
text = "This a simple example. And this is another."
text_transformed = cv.fit_transform([text])
vocab = sorted(cv.vocabulary_)
counts = text_transformed.toarray()
print(pd.DataFrame(counts, columns = vocab))
and another example is simple this
0 1 1 1 1 1 2
Можно было бы сделать:
import re
from collections import Counter
regex = re.compile('(?u)\\b\\w\\w+\\b')
tokens = re.findall(regex, text.lower()) # notice lowercase=True param
vocab = sorted(set(tokens))
counts = Counter(tokens)
counts = [counts[key] for key in sorted(counts.keys())]
#vocab, counts = list(zip(*sorted(counter.items()))) # one liner with asterisk unpacking
print(pd.DataFrame([counts], columns = vocab))
and another example is simple this
0 1 1 1 1 1 2
Объяснение:
CountVectorizer
использует параметр token_pattern='(?u)\\b\\w\\w+\\b'
, который является шаблоном регулярного выражения, для извлечения токенов из текста:
print(cv)
CountVectorizer(analyzer='word', binary=False, decode_error='strict',
dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
lowercase=True, max_df=1.0, max_features=None, min_df=1,
ngram_range=(1, 1), preprocessor=None, stop_words=None,
strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
tokenizer=None, vocabulary=None)
Предоставив это регулярное выражение re.findall
, вы добьетесь аналогичной токенизации, и, считая дальше, вы получите вывод CountVectorizer