Как получить бинарные данные каждой страницы Pdf файла?

Всем привет, комрады. Столкнулся с задачей, где мне понадобилось бы пропарсить PDF файл по страницам, но как получить бинарные данные этого PDF файла на PHP типа file_get_contents() только каждой страницы? Думал, что мне поможет PDF Parser, но я не нашёл метода, который мог бы реализовать это.
  • Вопрос задан
  • 254 просмотра
Пригласить эксперта
Ответы на вопрос 1
ivankomolin
@ivankomolin
По сути задачи подобного вида сводятся к следующему:
1. Разбить страницы pdf на отдельные изображения(например с помощью imagemagick)
2. Прогнать изображения через какую-нибудь OCR(например Tesseract)
3. Cпарсить полученные данные

Зачем получать бинарные данные каждой страницы pdf?
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
YCLIENTS Москва
от 200 000 до 350 000 ₽
Ведисофт Екатеринбург
от 25 000 ₽
ИТЦ Аусферр Магнитогорск
от 100 000 до 160 000 ₽
24 апр. 2024, в 22:30
200000 руб./за проект
24 апр. 2024, в 22:11
2000 руб./за проект
24 апр. 2024, в 21:49
10000 руб./за проект