Ответы пользователя по тегу Кодировка символов
  • Как декодировать это?

    Moskus
    @Moskus
    Это не только "кодировка", но и способ записи в виде HTML entity.
    https://docs.microsoft.com/en-us/dotnet/api/system...
    Ответ написан
    Комментировать
  • Кодировки в PC?

    Moskus
    @Moskus
    Компьютеры вообще ничего сами не понимают, никогда.
    У некоторых типов файлов кодировка определяется их форматом, потому программы, которые с ними работают, всегда используют нужную кодировку.
    У других типов файлов кодировка указывается в заголовке. Например, в HTML для этого есть тег. Так что программы читают его содержимое и интерпретируют кодировку верно.
    Таблицы кодировок никуда не "зашиты". Они могут быть частью операционной системы, могут - частью того или иного софта.
    Когда происходит ввод с клавиатуры, ASCII тут не при чем. Операционная система получает скан-код клавиши, а дальше генерирует символ в соответствии с тем, какая раскладка клавиатуры включена в данный момент. При этом, в какой код одного и того же символа это превращается, также зависит от конкретной программы. Например, если в этот момент открыта командная строка, а в ней установлена кодовая страница 866, символ кириллицы превратится в два байта из таблицы символов 866. А если открыт Word, то превратится в символ Unicode из более чем двух байт.
    Ответ написан
    8 комментариев
  • Существуют ли такие кодировки, в которых каждый байт (каждый байт из 256 возможных) кодирует упорядоченную пару клавиатурных символов?

    Moskus
    @Moskus
    Как вы вообще себе это представляете?
    Скажем, если кодировать каждый символ из пары одним полубайтом, то это будет 256 пар из двух наборов по 16 символов в каждом. 16 символов - маловато для алфавита, достаточно только для цифр и арифметических знаков.
    Если разделить байт на 5 и 3 бита, будет 32 символа и 8. Это, с оговорками, достаточно для латинских согласных и гласных, то есть для слогов, но это получится довольно бесполезный и неудобный способ кодирования. Возможно, такая конструкция подойдет для хранения составных символов (вроде слоговых символов Корейского или Японского языка), но это все равно как-то через задницу.
    Ответ написан
    Комментировать
  • Что делать с кодировкой в боте для Telegram?

    Moskus
    @Moskus
    У вас ошибка на ошибке.
    1) JSON должен быть в UTF-8. А вы пишете, что данные принимаются (откуда принимаются?) не в Unicode, а в восьмибитной win 1251. Так быть не должно.
    2) Вы верите содержимому заголовка, где написано win 1251, но это ложь, потому что эта кодировка - кириллическая, она не может передавать символы š и ų - убедитесь лично: https://en.wikipedia.org/wiki/Windows-1251
    3) Потому что (2), код iconv('cp1251', 'utf-8', $json) не имеет смысла. Если ваш JSON действительно передается в восьмибитной кодировке (что само по себе - ошибка, см. пункт 1), то это либо ISO 8859-10, либо ISO 8859-4.
    Я не могу вам сказать, как конкретно исправить ситуацию, потому что в вопросе недостаточно данных - слишком много ошибок наложено друг на друга. Начать решать проблему нужно, очевидно, с начала, то есть с выяснения, в какой действительно кодировке передается JSON (не глядя на HTTP-header, а глядя на сами данные).
    Ответ написан
  • Что за кодировка текста?

    Moskus
    @Moskus
    Способ записи в виде &#nnnn;, где nnnn - некое число, называется numeric entity reference.
    Конкретно этот вид записи использует десятеричную систему счисления для обозначения кода символа. А код символа - это его номер в Unicode.
    https://en.wikipedia.org/wiki/List_of_XML_and_HTML...
    Ответ написан
    Комментировать
  • Как расшифровать кодировку и как кодировать?

    Moskus
    @Moskus
    Это всего-навсего шестнадцатеричные коды ASCII символов, которые предваряются символами \x. Такая нотация идет из синтаксиса C и есть в C++, Python и так далее.
    См. stripcslashes
    Ответ написан
    Комментировать
  • Как влияет переход от кириллицы в латиницу на IT-индустрию страны?

    Moskus
    @Moskus
    Нет никаких практических плюсов. Есть только гигантский геморрой переходного периода, на котором, определенно, наживутся отдельные IT-компании. Использование ASCII неизбежно потребует многобуквенных комбинаций, а это - худшее, что можно придумать.
    Ответ написан
    Комментировать
  • Какое название у этого кода — ?

    Moskus
    @Moskus
    Вопрос сформулирован неверно. У кода нет названия. Название есть у способа указания кода, в данном случае - numeric character entity reference, ещё точнее - numeric hexadecimal character entity reference. И есть у символа, который этим кодом представлен. Здесь это символ из диапазона Unicode, зарезервированного для частного использования, то есть официально за этим кодом ничего не закреплено. Этот диапазон существует для иконочных шрифтов, например, куда можно поместить любой символ.
    "Сервис для поиска символов по коду" - это, тупо, любой поисковик. Вбейте в Google "f88b character site:unicode.org" и найдете искомое.
    Ответ написан
    Комментировать
  • UTF - у каких языков какая кодировка?

    Moskus
    @Moskus
    UTF - это Unicode Transformation Format, что означает, что эта кодировка предназначена для символов Unicode, а этот стандарт как раз предназначен для универсального кодирования всех возможных символов, включая древние мертвые языки. Спокойно используйте UTF-8. Все таблицы символов - на Unicode.org
    Ответ написан
    Комментировать
  • Как узнать и исправить кодировку php?

    Moskus
    @Moskus
    Вообще ничего "интересного": ваш файл - CSV в кодировке Windows-1251, который в первом примере показывается в кодировке Windows-1252 или ISO-8859-1 (что уж у вас там для Sublime по умолчанию установлено для однобайтных кодировок), то есть неверно интерпретируется. Однобайтная, а не мультибайтовый Unicode - потому что количество символов совпадает и нет повторяющихся через раз одинаковых символов (старший байт).
    "Исправлять" ничего не нужно. Можно сконвертировать, как однобайтовую 1251 в UTF-8 - тогда неоднозначность в интерпретации кодировки исчезнет.
    Ответ написан
    Комментировать
  • Как фильтровать письма, закодированные в ХЗ что?

    Moskus
    @Moskus
    Это не "ХЗ что", а кодировка quoted-printable. https://en.wikipedia.org/wiki/Quoted-printable
    Далее, возможны варианты (потому что вы, как это традиционно бывает на Тостере, привели только фрагмент информации, который посчитали важным, а не код всего исходника письма, например):
    - либо ваша почтовка не понимает эту кодировку (маловероятно), а система фильтрации - понимает,
    - либо письма сформированы с ошибками (например, содержат неправильное указание кодировки в заголовке, потому почтовка их не раскодирует,
    - либо вы что-то делаете неправильно (что - угадать сложно).
    Однако, это не слишком важно, потому что невозможно фильтровать письма только по кодировке (полезные письма тоже могут быть отправлены в QP), маловероятно также, что их можно фильтровать по тексту, потому что спам может быть разный.
    Ответ написан
    Комментировать
  • Что за кодировка?

    Moskus
    @Moskus
    Похоже на двухбайтовый URL encode, только вместо знака % - \\x
    В этой строке закодировано
    </title><script>alert(document.domain)</script>
    Ответ написан
    1 комментарий