Я пытаюсь написать txt для массового импортера postgres. Код в настоящее время дает сбой, поскольку строка, которая должна быть вставлена в postgres, не является допустимой UTF8: pq: invalid byte sequence for encoding UTF8: 0x00
В моем коде я проверяю, являются ли строки действительными UTF8 или нет.
Что мне не хватает?
Код:
for {
line, more := <-lineChannel
splitLine := strings.SplitN(line, ":", 2)
if len(splitLine) == 2 {
if utf8.Valid([]byte(splitLine[0])) && utf8.Valid([]byte(splitLine[1])) {
lineCount++
_, err = stmt.Exec(splitLine[0], splitLine[1])
if lineCount%int64(copySize) == 0 {
_, err = stmt.Exec()
if err != nil {
log.Fatal("Failed at stmt.Exec", err)
}
err = stmt.Close()
if err != nil {
log.Fatal("Failed at stmt.Close", err)
}
err = txn.Commit()
if err != nil {
log.Fatal("failed at txn.Commit", err)
}
txn, err = db.Begin()
if err != nil {
log.Fatal("failed at db.Begin", err)
}
stmt, err = txn.Prepare(pq.CopyIn("pwned", "username", "password"))
if err != nil {
log.Fatal("failed at txn.Prepare", err)
}
if lineCount%(int64(copySize)*10) == 0 {
log.Printf("Inserted %v lines", lineCount)
}
}
if err != nil {
log.Println("error:", splitLine[0], splitLine[1])
log.Fatal(err)
}
}
Обновлено: Строка, которая делает ошибку:
Байт []: [116 109 97 105 108 46 99 111 109 58 104 117 115 104 112 117 112 112 105 101 115 108 111 118 101]
строка: [email protected]:hushpuppieslove
РазделитьЛинию[0] + РазделитьЛинию[1]: [email protected] hushpuppieslove
0x00 — это нулевой символ, и postgres не разрешает это в строках. Из документы:
The NULL (0) character is not allowed because text data types cannot store such bytes.
Вам нужно будет удалить нулевые символы.
Спасибо за ваш комментарий, я читал, что символ NULL не разрешен. Похоже, это не источник моей проблемы. Пожалуйста, проверьте мое редактирование с частью источника ошибки.
Вы действительно пытались удалить 0x00 из вашего ввода? например: strings.Replace(line, "\u0000", "", -1)
Похоже, это сработало. Не могли бы вы объяснить, почему \u0000
не отображается в сообщении об ошибке, но все же вызывает проблему?
Попробуйте
log.Print([]byte(line))
и посмотрите, что представляют собой необработанные байты.