У меня есть фрейм данных numpy или pandas, который содержит в большинстве ячеек числовые значения, с другой стороны, есть запасные значения символов (они не основаны на столбцах, поэтому я не могу использовать кодировщик меток). Я ищу метод для преобразования этих разреженных значений символов, которые могут быть где угодно, в их код ASCII, чтобы передать массив в модели глубокого обучения. После этого мне нужно знать, какие из них были преобразованы, чтобы я мог преобразовать их обратно в символы. Любая идея будет высоко оценена!
Примерными значениями могут быть (1,2,f,5,3) в строке 1 и (7,k,1,j,9) в некоторой строке k. Это в массиве numpy или в фрейме данных pandas. Вопрос в том, как мне закодировать буквы в ascii, чтобы были цифры, а потом как их обратно декодировать?
Это просто: примерные значения могут быть (1,2,f,5,3) в строке 1 и (7,k,1,j,9) в некоторой строке k. Это в массиве numpy или в фрейме данных pandas. Вопрос в том, как я могу кодировать буквы в ascii, чтобы иметь числа, а затем как их декодировать обратно?
Возможным решением может быть использование ord()
и chr()
для кодирования и декодирования ваших символов с использованием «целого числа, представляющего кодовую точку Unicode этого символа».
>>> df
characters
0 f
1 k
>>> df["encoded"] = df["characters"].apply(ord)
>>> df["encoded"]
0 102
1 107
>>> df["decoded"] = df["encoded"].apply(chr)
>>> df["decoded"]
0 f
1 k
Нет определенного столбца, в котором хранятся только символы. В столбце могут быть как целые числа, так и символы.
Пожалуйста, уточните вашу конкретную проблему или предоставьте дополнительную информацию, чтобы выделить именно то, что вам нужно. Как сейчас написано, трудно точно сказать, о чем вы спрашиваете.