Библиотека Unicode Light C

Я ищу небольшую библиотеку C для обработки строк utf8.

В частности, разделение на основе разделителей Unicode для использования с алгоритмами выделения корней.

Связанные сообщения предлагали:

ICU http://www.icu-project.org/ (мне он показался слишком громоздким для моих целей на встроенных устройствах)

UTF8-CPP: http://utfcpp.sourceforge.net/ (Отлично, но C++ не C)

Кто-нибудь нашел какие-либо независимые от платформы небольшие библиотеки кодовой базы для обработки строк Unicode (не требуется натурализация).

utf8-cpp великолепен! плавно портировал на ios / android. только заголовок библиотеки

— 21.05.2016 18:25

c unicode utf-8

24.11.2008 09:48

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

33 456

Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

Ответ принят как подходящий

Хорошая, легкая библиотека, которую я успешно использую, - utf8proc.

24.11.2008 09:52

UTF-8 специально разработан таким образом, чтобы многие строковые функции, ориентированные на байты, продолжали работать или нуждались только в незначительных изменениях.

Например, функция C strstr будет отлично работать, пока оба ее входа являются действительными строками UTF-8 с завершающим нулем. strcpy работает нормально, пока его входная строка начинается с границы символа (например, возвращаемое значение strstr).

Так что вам может даже не понадобиться отдельная библиотека!

Совершенно верно, до сих пор мне нужно было только хранить / копировать строки, и я делал именно это. Но затем мне стало нужно разделять слова для индексации, поэтому я хотел убедиться, что правильно с ними обращаюсь.

— 24.11.2008 10:33

Пока они работают, функции поиска, вероятно, не будут работать так же хорошо с символами UTF-8. Например, если можно определить, что символ UTF-8 не соответствует сразу (часто это возможно, если сравнивать его с символом ASCII), можно пропустить всю кодировку символов UTF-8, которая может состоять из нескольких байтов. Но вы правы в том, что некоторые функции C будут нормально работать со строками UTF-8, что является одной из причин популярности UTF-8.

— 24.01.2012 04:56

Отсутствие сбоев - это не то же самое, что работа: такая простая вещь, как размер строки, не работает для UTF-8. UTF-8 НЕ разработан специально для совместимости с библиотеками.

— 03.07.2017 16:59

24.11.2008 10:30

Также есть MicroUTF-8, но для просмотра или загрузки источника могут потребоваться учетные данные.

30.10.2011 16:28