





Проверить многобайтовые строковые функции здесь
Вам нужно знать, в каком наборе символов закодирована ваша входная строка, иначе это никуда не денется.
Если вы хотите сделать это правильно, вам может быть полезна эта статья: Абсолютный минимум, что каждый разработчик программного обеспечения должен знать о Unicode и наборах символов (без оправданий!)
Учитывая поток байтов, вы должны знать, с какой кодировки он начинается - электронная почта использует заголовки mime для указания кодировки, http использует заголовки http для указания кодировки. Кроме того, вы можете указать кодировку в метатеге на веб-странице, но это не всегда соблюдается.
В любом случае, как только вы узнаете, из какой кодировки хотите преобразовать, используйте iconv, чтобы преобразовать ее в utf8. посмотрите раздел iconv документации php, там много полезной информации.
Ах, Томас разместил ссылку, которую я искал. Обязательно прочтите.
Самый простой способ проверить валидность UTF-8:
Если разрешена только одна строка:
preg_match('/^.*$/Du', $value)
Если разрешено несколько строк:
preg_match('/^.*$/sDu', $value)
Это работает для PHP> = 4.3.5 и не требует каких-либо нестандартных модулей PHP.