Какие возникают проблемы при работе с Unicode и какие им есть решения на C++?

Question

vipermagi @vipermagi

Вечный ученик.

C++
Unicode

Какие возникают проблемы при работе с Unicode и какие им есть решения на C++?

Пытаюсь комплексно обозреть для себя сферу работы с текстом в целом и с поправкой на Unicode и C++.
Кроссплатформенность тоже хочу учесть.

Вопрос 1: какие существуют известные задачи (если можно полный список :) ) при работе с текстом вообще, для которых в Unicode нужно особое решение?
Вопрос 2: какие есть средства для работы с этим всем в C++ по умолчанию и на сколько они дотягивают / не дотягивают до идеала?
Вопрос 3: дополнительные библиотеки насколько могут оказаться не обходимыми?

На текущий момент определил для себя вот такие задачи:

Итератор для перемещения по визуальным знакоместам либо по codepoint'ам
Определение размера (байт) подстроки и операции вырезания, вставки и т.п.
Поиск и regex
Перекодировка между UTF-* и другими кодировками
Чтение / запись как содержимого файлов так и путей файловых систем

Может быть ещё есть какие-нибудь требующие подхода в Unicode?

Первая мысль - это взять locale.h, regex.h и std::string, и этого хватит. Но думаю эта мысль далека от реальности, вот только не знаю на сколько далека.

Вторая мысль - это не париться и сразу брать в любой проект ICU. Но это жЫрнота и как-то жаба давит.

Вопрос задан более трёх лет назад
434 просмотра

Комментировать

Подписаться 4 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

2 комментария

sitev_ru @sitev_ru

UTF-8 и UTF-16, используют для представления символов переменное число байтов. Символ UTF-32 является прямым представлением его кодовой позиции. Главное преимущество UTF-32 перед кодировками переменной длины заключается в том, что символы Юникод непосредственно индексируемы. Получение n-ой кодовой позиции является операцией, занимающей одинаковое время. Напротив, коды с переменной длиной требует последовательного доступа к n-ой кодовой позиции. Это делает замену символов в строках UTF-32 простой, для этого используется целое число в качестве индекса, как обычно делается для строк ASCII.

Написано более трёх лет назад
Adamos @Adamos

sitev_ru: да я в курсе. Только в реальных программах именно посимвольная обработка строк чаще всего некритична. А вот использование чьих-то сторонних библиотек (хотя бы и для интерфейса), скорее всего, потребует приводить их именно к utf-8. Если, конечно, не ограничиваться виндами.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

C++

+1 ещё

Простой
Рекурсивный ввод-вывод последовательности без использования массивов и списоков?
- 2 подписчика
- 16 часов назад
- 346 просмотров
0

ответов
C++

+2 ещё

Средний
Как сделать маштабирование относительно центра екрана?
- 1 подписчик
- 21 час назад
- 58 просмотров
0

ответов
C++

Простой
Как составить план по изучению языка C++?
- 1 подписчик
- вчера
- 119 просмотров
2

ответа
C++

+2 ещё

Простой
Как подключить библиотеку TgBot к срр проекту?
- 1 подписчик
- вчера
- 64 просмотра
1

ответ
C++

+2 ещё

Простой
Как выровнять по центру текст подсказки и вводимый текст в QTextEdit?
- 1 подписчик
- вчера
- 37 просмотров
1

ответ
C++

Простой
Как можно разделить данный код (см. ниже) по header'ам и cpp'ам, учитывая зависимости в нём?
- 1 подписчик
- 17 апр.
- 68 просмотров
2

ответа
Windows

+1 ещё

Простой
Как исправить ошибку буфера с UART?
- 1 подписчик
- 15 апр.
- 149 просмотров
2

ответа
C++

Простой
Как вернуть двумерный массив?
- 1 подписчик
- 15 апр.
- 80 просмотров
3

ответа
C++

+1 ещё

Простой
Как реализовать многопоточность на C++?
- 1 подписчик
- 14 апр.
- 132 просмотра
1

ответ
C++

+4 ещё

Средний
Как написать динамическую библиотеку на C++ при помощи CMake в среде QTCreator, которую потом можно будет импортировать в проекты на Python?
- 1 подписчик
- 14 апр.
- 70 просмотров
2

ответа
Показать ещё Загружается…

Web разработчик (fullstack)

Складно

от 120 000 до 150 000 ₽

Ведущий системный администратор

U-System • Воронеж

от 120 000 ₽

Python Backend Разработчик

Stakewolle

от 35 000 до 45 000 ₽

Доработать сайт на React + Nest

19 апр. 2024, в 12:05

1500 руб./в час

Разработать программу в CodeSys

19 апр. 2024, в 12:00

250 руб./за проект

Сделать мобильную версию сайта Next.js/React

19 апр. 2024, в 11:54

500 руб./в час

Answer 1 · 2016-10-26 07:38:51

Посмотри тут https://github.com/sitev/cjCore/blob/master/src/ob... мой класс String. Это UTF-32 строка. Есть свои плюсы и минусы. Можем объединить усилия, написать свой, более правильный String!

Answer 2 · 2016-10-26 08:50:09

UTF8-CPP - использовал, когда приходилось писать без использования кроссплатформенных фреймворков. Основные проблемы решает.
Главное - привести все входящие строки к utf-8 и не забыть их конвертировать в выходную кодировку, если это требуется. А вся обработка - только в utf-8, готовых решений для этого более чем достаточно.

Какие возникают проблемы при работе с Unicode и какие им есть решения на C++?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт