Подскажите декодер неизвестных науке кодировок

Подскажите, пожалуйста, opensource java-библиотеку или консольную утилиту (на крайняк подойдет что угодно другое) способную восстановить текст с неверно наложенными кодировками, например koi8-R -> utf-8 -> win1251. Проще говоря, аналог Лебедевского декодера, только серверный. Заранее спасибо.
  • Вопрос задан
  • 4002 просмотра
Пригласить эксперта
Ответы на вопрос 3
@vilgeforce
Раздолбай и программист
enca+enconv?
Ответ написан
Комментировать
@rozhik
Если (на крайняк подойдет что угодно другое), то расскажу как это работает:
Берем текст, разбиваем его на слова, и несколько первых ищем в разных кодировках в ispell-dictionaries. Как только пару слов совпало — профит.
Есть несколько улучшений к идее.
1) используем только первые 6 букв слова.
2) используем данные частотного анализа для получения отсортированного списка преобразований кодировок.
3) используем цепи для списка кодировок (ищем часто встречающиеся слоги).
Ответ написан
rfq
@rfq
Программист
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы