@malvin

Как получить читаемый русский текст при парсинге PDF c помощью tabula-py?

Виндоус 7 32.
Все русские буквы в сохраненном файле заменены ?????
import tabula


tabula.convert_into(r"C:\Code\Active\kartoteka\misc\ExampleExtract.pdf", r"C:\Code\Active\kartoteka\misc\output.csv", output_format="csv",pages = "all",java_options="-Dfile.encoding=utl-8")

Разработчик рекомендует такое решение -
I got ? character with result on Windows. How can I avoid it?
If the encoding of PDF is UTF-8, you should set chcp 65001 on your terminal before launching a Python process.

chcp 65001


Запустил команду в смд - тот же результат.
  • Вопрос задан
  • 358 просмотров
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы