Как правильно использовать юникод в python 2.7?

Question

Сергей @Kamikaze

Как правильно использовать юникод в python 2.7?

Что-то странное происходит, вероятнее всего из-за того, что я что-то не понимаю, потому прошу помощи:
Продолжение истории с journalctl древней версии, который в формате json отдает вместо кириллицы вот такое:

"MESSAGE" : "2017-11-28 20:16:06.015  INFO 19853 --- [enerContainer-1] r.p.e.s.i.m.h.s.l.LocalMszPackageHandler : [MSG=d182a0ea-d45f-11e7-a390-7f0ad09e8f90] \uffffffd0\uffffffa1\uffffffd0\uffffffbe\uffffffd1\uffffff85\uffffffd1\uffffff80\uffffffd0\uffffffb0\uffffffd0\uffffffbd\uffffffd0\uffffffb5\uffffffd0\uffffffbd\uffffffd0\uffffffb8\uffffffd0\uffffffb5 \uffffffd0\uffffffbf\uffffffd0\uffffffb0\uffffffd0\uffffffba\uffffffd0\uffffffb5\uffffffd1\uffffff82\uffffffd0\uffffffb0"

Несложными логическими выводами понимаем что re.sub('uffffff','x',line) дает нам уже нормальный UTF-8.
Далее методом волшебных костылей имеем следующее:

>>> line2 = "\xd0\x9e\xd1\x82\xd0\xbf\xd1\x80\xd0\xb0\xd0\xb2\xd0\xba\xd0\xb0 \xd0\xbf\xd0\xbe\xd0\xb4\xd1\x82\xd0\xb2\xd0\xb5\xd1\x80\xd0\xb6\xd0\xb4\xd0\xb5\xd0\xbd\xd0\xb8\xd1\x8f \xd0\xbf\xd1\x83\xd0\xb1\xd0\xbb\xd0\xb8\xd0\xba\xd0\xb0\xd1\x86\xd0\xb8\xd0\xb8"
>>> unicode(line2)
u'\u041e\u0442\u043f\u0440\u0430\u0432\u043a\u0430 \u043f\u043e\u0434\u0442\u0432\u0435\u0440\u0436\u0434\u0435\u043d\u0438\u044f \u043f\u0443\u0431\u043b\u0438\u043a\u0430\u0446\u0438\u0438'
>>> lined = unicode(line2)
>>> print lined
Отправка подтверждения публикации

Казалось бы, шикарно, пишем тестовый код:

...
line = re.sub('uffffff','x',line)
patterns_object = re.search('(((\\\\x[a-f,0-9]{2})+\s*)+)',line)	
if patterns is not None:                                       
    line2 = patterns.group(0)                  
    line3 = unicode(line2)
    print "line:" + line
    print "line3:" + line3

И имеем на выходе что-то мало напоминающее то, что было выше:

line:\xd0\x9e\xd1\x82\xd0\xbf\xd1\x80\xd0\xb0\xd0\xb2\xd0\xba\xd0\xb0 \xd0\xbf\xd0\xbe\xd0\xb4\xd1\x82\xd0\xb2\xd0\xb5\xd1\x80\xd0\xb6\xd0\xb4\xd0\xb5\xd0\xbd\xd0\xb8\xd1\x8f \xd0\xbf\xd1\x83\xd0\xb1\xd0\xbb\xd0\xb8\xd0\xba\xd0\xb0\xd1\x86\xd0\xb8\xd0\xb8 \xd0\xb2 \xd0\x9f\xd0\x9d\xd0\xa1\xd0\x98

line3:\xd0\x9e\xd1\x82\xd0\xbf\xd1\x80\xd0\xb0\xd0\xb2\xd0\xba\xd0\xb0 \xd0\xbf\xd0\xbe\xd0\xb4\xd1\x82\xd0\xb2\xd0\xb5\xd1\x80\xd0\xb6\xd0\xb4\xd0\xb5\xd0\xbd\xd0\xb8\xd1\x8f \xd0\xbf\xd1\x83\xd0\xb1\xd0\xbb\xd0\xb8\xd0\xba\xd0\xb0\xd1\x86\xd0\xb8\xd0\xb8 \xd0\xb2 \xd0\x9f\xd0\x9d\xd0\xa1\xd0\x98

Опробовал найденные варианты вида print(str(b)), print(unicode(b)), print(repr(b)), всё равно одно и то же.

Тыкнете носом в чем я не разобрался и что идти читать?

Вопрос задан более трёх лет назад
749 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 2

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Пишу Todolist появилась ошибка, как исправить?
- 1 подписчик
- 29 минут назад
- 15 просмотров
0

ответов
Python

+1 ещё

Простой
Как решить проблему с терминалом PyCharm?
- 1 подписчик
- час назад
- 13 просмотров
0

ответов
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 2 часа назад
- 10 просмотров
0

ответов
Python

+2 ещё

Средний
Возможно ли сделать так, чтобы Telegram GPT-Yandex.Cloud Бот отвечал не только на текстовые сообщения, но и на картинки? И если да, то как?
- 1 подписчик
- 2 часа назад
- 30 просмотров
2

ответа
Python

Средний
Как выполнить авторизацию MS CHAP 2?
- 1 подписчик
- 4 часа назад
- 22 просмотра
0

ответов
Python

+1 ещё

Простой
Как вычислить количество записей?
- 1 подписчик
- 8 часов назад
- 64 просмотра
2

ответа
Python

+1 ещё

Простой
Почему при использование webdriverIE все равно открывается EDge?
- 1 подписчик
- 10 часов назад
- 14 просмотров
0

ответов
Python

Простой
Почему мой discord бот не реагирует на свои команды?
- 1 подписчик
- 11 часов назад
- 55 просмотров
0

ответов
Python

Простой
Как получить экземпляр родителя из дочернего класса?
- 1 подписчик
- 22 часа назад
- 118 просмотров
1

ответ
Python

Простой
Как указать когда нужна рекурсия а когда нет?
- 1 подписчик
- вчера
- 77 просмотров
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

[python,go] Залить ВИДЕО в тикток

19 апр. 2024, в 23:00

5000 руб./за проект

Разработка VST-плагина

19 апр. 2024, в 20:43

20000 руб./за проект

Нарисовать баннер для интернет-магазина

19 апр. 2024, в 20:35

500 руб./в час

Answer 1 · 2017-12-07 19:34:42

Fixid @Fixid

Лучше просто перейдите на python3, это менее болезненно

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2017-12-12 17:30:10

Если кому интересно, в 2.7 решил примерно вот таким вот костылем:

...
def _repl_unicode(matchobj):
	line3 = re.sub('\\\\uffffff','',matchobj.group(0))
	line4 = binascii.unhexlify(line3)
	return line4

while True:
	line2_obj = re.search('((\\\\uffffff[0-9a-f]{2}){2})',line)
	if line2_obj is not None:
		line2 = line2_obj.group(0)
		line3 = re.sub('\\\\uffffff','',line2)
		line = re.sub('((\\\\uffffff[0-9a-f]{2}){2})',_repl_unicode,line)
	else:
		break
...

И вуаля, на выходе уже вполне себе нормальная кириллица.

Answer 3 · 2017-12-07 22:42:58

Переходи на python 3. Потому что 2.7 не будет поддерживаться после 2020.
Numpy уже не обновляют для 2.7 и django тоже.

Как правильно использовать юникод в python 2.7?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт