Ответы пользователя Moskus по тегу «Кодировка символов»

Как декодировать это?

Moskus @Moskus

Это не только "кодировка", но и способ записи в виде HTML entity.
https://docs.microsoft.com/en-us/dotnet/api/system...

Комментировать

Компьютеры вообще ничего сами не понимают, никогда.
У некоторых типов файлов кодировка определяется их форматом, потому программы, которые с ними работают, всегда используют нужную кодировку.
У других типов файлов кодировка указывается в заголовке. Например, в HTML для этого есть тег. Так что программы читают его содержимое и интерпретируют кодировку верно.
Таблицы кодировок никуда не "зашиты". Они могут быть частью операционной системы, могут - частью того или иного софта.
Когда происходит ввод с клавиатуры, ASCII тут не при чем. Операционная система получает скан-код клавиши, а дальше генерирует символ в соответствии с тем, какая раскладка клавиатуры включена в данный момент. При этом, в какой код одного и того же символа это превращается, также зависит от конкретной программы. Например, если в этот момент открыта командная строка, а в ней установлена кодовая страница 866, символ кириллицы превратится в два байта из таблицы символов 866. А если открыт Word, то превратится в символ Unicode из более чем двух байт.

Ответ написан более трёх лет назад

8 комментариев

Существуют ли такие кодировки, в которых каждый байт (каждый байт из 256 возможных) кодирует упорядоченную пару клавиатурных символов?

Moskus @Moskus

Как вы вообще себе это представляете?
Скажем, если кодировать каждый символ из пары одним полубайтом, то это будет 256 пар из двух наборов по 16 символов в каждом. 16 символов - маловато для алфавита, достаточно только для цифр и арифметических знаков.
Если разделить байт на 5 и 3 бита, будет 32 символа и 8. Это, с оговорками, достаточно для латинских согласных и гласных, то есть для слогов, но это получится довольно бесполезный и неудобный способ кодирования. Возможно, такая конструкция подойдет для хранения составных символов (вроде слоговых символов Корейского или Японского языка), но это все равно как-то через задницу.

Ответ написан более трёх лет назад

Комментировать

Что делать с кодировкой в боте для Telegram?

Moskus @Moskus

У вас ошибка на ошибке.
1) JSON должен быть в UTF-8. А вы пишете, что данные принимаются (откуда принимаются?) не в Unicode, а в восьмибитной win 1251. Так быть не должно.
2) Вы верите содержимому заголовка, где написано win 1251, но это ложь, потому что эта кодировка - кириллическая, она не может передавать символы š и ų - убедитесь лично: https://en.wikipedia.org/wiki/Windows-1251
3) Потому что (2), код iconv('cp1251', 'utf-8', $json) не имеет смысла. Если ваш JSON действительно передается в восьмибитной кодировке (что само по себе - ошибка, см. пункт 1), то это либо ISO 8859-10, либо ISO 8859-4.
Я не могу вам сказать, как конкретно исправить ситуацию, потому что в вопросе недостаточно данных - слишком много ошибок наложено друг на друга. Начать решать проблему нужно, очевидно, с начала, то есть с выяснения, в какой действительно кодировке передается JSON (не глядя на HTTP-header, а глядя на сами данные).

Ответ написан более трёх лет назад

14 комментариев

Что за кодировка текста?

Moskus @Moskus

Способ записи в виде &#nnnn;, где nnnn - некое число, называется numeric entity reference.
Конкретно этот вид записи использует десятеричную систему счисления для обозначения кода символа. А код символа - это его номер в Unicode.
https://en.wikipedia.org/wiki/List_of_XML_and_HTML...

Ответ написан более трёх лет назад

Комментировать

Как расшифровать кодировку и как кодировать?

Moskus @Moskus

Это всего-навсего шестнадцатеричные коды ASCII символов, которые предваряются символами \x. Такая нотация идет из синтаксиса C и есть в C++, Python и так далее.
См. stripcslashes

Ответ написан более трёх лет назад

Комментировать

Как влияет переход от кириллицы в латиницу на IT-индустрию страны?

Moskus @Moskus

Нет никаких практических плюсов. Есть только гигантский геморрой переходного периода, на котором, определенно, наживутся отдельные IT-компании. Использование ASCII неизбежно потребует многобуквенных комбинаций, а это - худшее, что можно придумать.

Ответ написан более трёх лет назад

Комментировать

Какое название у этого кода — ?

Moskus @Moskus

Вопрос сформулирован неверно. У кода нет названия. Название есть у способа указания кода, в данном случае - numeric character entity reference, ещё точнее - numeric hexadecimal character entity reference. И есть у символа, который этим кодом представлен. Здесь это символ из диапазона Unicode, зарезервированного для частного использования, то есть официально за этим кодом ничего не закреплено. Этот диапазон существует для иконочных шрифтов, например, куда можно поместить любой символ.
"Сервис для поиска символов по коду" - это, тупо, любой поисковик. Вбейте в Google "f88b character site:unicode.org" и найдете искомое.

Ответ написан более трёх лет назад

Комментировать

UTF - у каких языков какая кодировка?

Moskus @Moskus

UTF - это Unicode Transformation Format, что означает, что эта кодировка предназначена для символов Unicode, а этот стандарт как раз предназначен для универсального кодирования всех возможных символов, включая древние мертвые языки. Спокойно используйте UTF-8. Все таблицы символов - на Unicode.org

Ответ написан более трёх лет назад

Комментировать

Как узнать и исправить кодировку php?

Moskus @Moskus

Вообще ничего "интересного": ваш файл - CSV в кодировке Windows-1251, который в первом примере показывается в кодировке Windows-1252 или ISO-8859-1 (что уж у вас там для Sublime по умолчанию установлено для однобайтных кодировок), то есть неверно интерпретируется. Однобайтная, а не мультибайтовый Unicode - потому что количество символов совпадает и нет повторяющихся через раз одинаковых символов (старший байт).
"Исправлять" ничего не нужно. Можно сконвертировать, как однобайтовую 1251 в UTF-8 - тогда неоднозначность в интерпретации кодировки исчезнет.

Ответ написан более трёх лет назад

Комментировать

Как фильтровать письма, закодированные в ХЗ что?

Moskus @Moskus

Это не "ХЗ что", а кодировка quoted-printable. https://en.wikipedia.org/wiki/Quoted-printable
Далее, возможны варианты (потому что вы, как это традиционно бывает на Тостере, привели только фрагмент информации, который посчитали важным, а не код всего исходника письма, например):
- либо ваша почтовка не понимает эту кодировку (маловероятно), а система фильтрации - понимает,
- либо письма сформированы с ошибками (например, содержат неправильное указание кодировки в заголовке, потому почтовка их не раскодирует,
- либо вы что-то делаете неправильно (что - угадать сложно).
Однако, это не слишком важно, потому что невозможно фильтровать письма только по кодировке (полезные письма тоже могут быть отправлены в QP), маловероятно также, что их можно фильтровать по тексту, потому что спам может быть разный.

Ответ написан более трёх лет назад

Комментировать

Что за кодировка?

Moskus @Moskus

Похоже на двухбайтовый URL encode, только вместо знака % - \\x
В этой строке закодировано
</title><script>alert(document.domain)</script>

Ответ написан более трёх лет назад

1 комментарий

Войдите на сайт