@cabron228
Падаван темной стороны

Проблемы с кодировкой при парсинге html?

Столкнулся с такой проблемой — при парсинге hh.ru возникают проблемы с кодировкой параметров поиска. Вместо букв, как обычно, какая-то кракозябра.
Пробовал сделать вот так:
URLEncoder.encode(url, "UTF-8");
Не помогло. Подскажите, как это обойти?
  • Вопрос задан
  • 361 просмотр
Решения вопроса 1
lxsmkv
@lxsmkv
Test automation engineer
Вполне себе правильная кракозябра думаю
https://ru.wikipedia.org/wiki/URL "Кодирование URL"

Java APi URLEncoder:
"For example using UTF-8 as the encoding scheme the string "The string ü@foo-bar" would get converted to "The+string+%C3%BC%40foo-bar" because in UTF-8 the character ü is encoded as two bytes C3 (hex) and BC (hex), and the character @ is encoded as one byte 40 (hex)."

если вы об этом.
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы