У меня есть HTML-код, который был вставлен в базу данных MySQL из файла CSV, который, в свою очередь, был экспортирован из файла доступа MDB. Файл MDB был экспортирован как Unicode, и действительно, Unicode. Однако я не уверен, какая кодировка есть в базе данных MySQL.
Однако, когда я пытаюсь вывести html, хранящийся в поле, Unicode отсутствует. Это прямой поиск одного из полей HTML в базе данных.
http://www.yousendit.com/download/TTZueEVYQzMrV3hMWEE9PQ
В источнике написано utf-8. Фактический код страницы, сгенерированный при выводе article_desc, находится здесь:
http://www.nomorepasting.com/getpaste.php?pasteid=22566
Мне нужно использовать этот html с JSON, и мне интересно, что мне делать. Я не могу использовать другие фреймворки или библиотеки. Должен ли я преобразовывать данные перед тем, как вставлять их в базу данных MySQL, или что-то еще?






The mdb file was exported as Unicode, and indeed is unocode.
Это не имеет смысла. Файл не может быть юникодом. Его можно закодировать с помощью кодировки, совместимой с Unicode, например utf-8, или utf-16, или utf-8 с BOM или ..
Проблемы с кодировкой - очень распространенная проблема, корень которой в незнании. Я говорю это не для того, чтобы вас обидеть, но вам действительно нужно знать разницу между кодовыми точками (строками) и кодировками (байтовыми потоками). Если вы не знаете, с чем имеете дело на протяжении всего приложения, в конечном итоге у вас возникнут проблемы. Проклятие этих проблем в том, что они возникают только в крайних случаях, поэтому за ними легко наблюдать в течение длительного времени, и когда вы наконец поймете, что что-то не так, это может быть вызвано совершенно не связанной частью вашего приложения. Это делает отладку практически невозможной.