Как получить бинарные данные каждой страницы Pdf файла?

Всем привет, комрады. Столкнулся с задачей, где мне понадобилось бы пропарсить PDF файл по страницам, но как получить бинарные данные этого PDF файла на PHP типа file_get_contents() только каждой страницы? Думал, что мне поможет PDF Parser, но я не нашёл метода, который мог бы реализовать это.
  • Вопрос задан
  • 87 просмотров
Пригласить эксперта
Ответы на вопрос 1
@ivankomolin
По сути задачи подобного вида сводятся к следующему:
1. Разбить страницы pdf на отдельные изображения(например с помощью imagemagick)
2. Прогнать изображения через какую-нибудь OCR(например Tesseract)
3. Cпарсить полученные данные

Зачем получать бинарные данные каждой страницы pdf?
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через TM ID
Похожие вопросы
от 2 000 до 4 000 usd.
Teamlead Краснодар
До 100 000 руб.
Duotek Москва
До 120 000 руб.
20 авг. 2018, в 07:25
180000 руб./за проект
20 авг. 2018, в 02:05
1000 руб./за проект