@musclecode

Как извлечь текст из pdf файла отделавшись малой кровью?

нужно извлечь из словаря отдельно слова и отдельно их значения, в словаре больше 10к слов, вручную делать будет сложновато и нудно, есть ли какие нибудь варианты как сделать это быстрее, эффективнее?
  • Вопрос задан
  • 83 просмотра
Решения вопроса 1
solotony
@solotony
покоряю пик Балмера
все зависит от внутренней структуры pdf.

я в свое время перегнал pdf в картинки а потом через распознаватель текста. но подозреваю со словарем такое не получится.

если внутренняя структура у pdf-ки регулярная, то можно написать декодер - в конце концов это текстовый формат и можно написать декодер вот пример https://habrahabr.ru/post/69568/
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы