У меня есть код ниже в python3
:
docs = ['Well done!',
'Good work',
'Great effort',
'nice work',
'Excellent!',
'Weak',
'Poor effort!',
'not good',
'poor work',
'Could have done better.']
# define class labels
labels = np.array([1,1,1,1,1,0,0,0,0,0])
from keras import backend as K
# integer encode the documents
vocab_size = 50
encoded_docs = [K.one_hot(d, vocab_size) for d in docs]
print(encoded_docs)
В основном я пытаюсь закодировать каждое слово из списка, но получаю эту ошибку:
TypeError: Value passed to parameter 'indices' has DataType string not in list of allowed values: uint8, int32, int64
.
Что не так в моем коде? Это похоже на ошибку типа, но я не понимаю, почему.
Метод Keras one_hot
ожидает, что первый аргумент будет целочисленного типа (в вашем случае индекс слов). Поэтому вам нужно сначала сопоставить каждое слово с уникальным целым числом, прежде чем использовать метод one_hot
.
docs = ['Well done!',
'Good work',
'Great effort',
'nice work',
'Excellent!',
'Weak',
'Poor effort!',
'not good',
'poor work',
'Could have done better.']
all_words = set()
for s in docs:
for word in s.split():
all_words.add(word)
all_words = list(all_words)
# define class labels
labels = np.array([1,1,1,1,1,0,0,0,0,0])
from keras import backend as K
# integer encode the documents
vocab_size = len(all_words)
encoded_docs = [[K.one_hot(all_words.index(word), vocab_size) for word in d.split()] for d in docs]
print(encoded_docs)
Если вы хотите кодировать знаки препинания как отдельные слова, вы можете использовать модуль re
для разделения слов.
import re
import string
encoded_docs = [[K.one_hot(all_words.index(word), vocab_size) for word in re.findall("[\w]+|["+string.punctuation+"]", d) for d in docs]
без какого-либо преобразования в целое число я использовал:
encoded_docs = [keras.preprocessing.text.one_hot(d,vocab_size)for d in docs]
Оно работает !
В некоторых случаях вы можете попробовать keras.preprocessing.text.one_hot вместо keras.backend.one_hot, хотя, поскольку он использует хэширование и не гарантирует уникальность, ответ ниже может подойти вам лучше.