Как получить бинарные данные каждой страницы Pdf файла?

Всем привет, комрады. Столкнулся с задачей, где мне понадобилось бы пропарсить PDF файл по страницам, но как получить бинарные данные этого PDF файла на PHP типа file_get_contents() только каждой страницы? Думал, что мне поможет PDF Parser, но я не нашёл метода, который мог бы реализовать это.
  • Вопрос задан
  • 247 просмотров
Пригласить эксперта
Ответы на вопрос 1
ivankomolin
@ivankomolin
По сути задачи подобного вида сводятся к следующему:
1. Разбить страницы pdf на отдельные изображения(например с помощью imagemagick)
2. Прогнать изображения через какую-нибудь OCR(например Tesseract)
3. Cпарсить полученные данные

Зачем получать бинарные данные каждой страницы pdf?
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы