Как получить бинарные данные каждой страницы Pdf файла?

Question

Владислав Софиенко @sofvlad

PHP
PDF

Как получить бинарные данные каждой страницы Pdf файла?

Всем привет, комрады. Столкнулся с задачей, где мне понадобилось бы пропарсить PDF файл по страницам, но как получить бинарные данные этого PDF файла на PHP типа file_get_contents() только каждой страницы? Думал, что мне поможет PDF Parser, но я не нашёл метода, который мог бы реализовать это.

Вопрос задан более трёх лет назад
254 просмотра

Комментировать

Подписаться 2 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 1

4 комментария

Владислав Софиенко @sofvlad Автор вопроса

Чтобы потом делать ajax запрос на получение pdf страницы и рендерить при помощи pdf.js. Типа так.

Написано более трёх лет назад
ivankomolin @ivankomolin

Ну так бы и написали, что вам нужно просто разбить pdf на страницы. Зачем усложнять? Бинарные файлы, парсить... Решение выше было изложено именно для парсинга содержимого pdf. Я неправильно понял.

Для ваших целей в linux есть инструмент pdfseparate например.

Написано более трёх лет назад
Владислав Софиенко @sofvlad Автор вопроса

ivankomolin, нужно именно средставми php, ибо нужно сразу разбивать при загрузке файла на сервер пользователем и чтобы не зависеть от ОС и прав предоставляемого хостинга.

Написано более трёх лет назад
ivankomolin @ivankomolin

Именно средствами php это будет очень дорого по ресурсам, но возможно что-то подобное есть. Посмотрите tcpdf например.

Но все же советую воспользоваться быстрыми утилитами предназначенными специально для этого. А запускать утилиты можно и через php, если вы не знали.

P. S.:
Не очень понятно бывает слышать "чтобы не зависеть от ОС".
В вебе 99% случаев такую задачу будут решать на *nix.
И врядли хоть одно из этих решений потом сможет запуститься на win.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

PHP

+1 ещё

Средний
Как получить телефон из Google OAuth 2.0 API?
- 1 подписчик
- 5 часов назад
- 33 просмотра
1

ответ
PHP

+1 ещё

Средний
Как запускать PHP в терминале Netbeans?
- 2 подписчика
- 6 часов назад
- 58 просмотров
0

ответов
PHP

+1 ещё

Простой
Где ошибка в коде при создании древа в sql из файла?
- 1 подписчик
- 7 часов назад
- 73 просмотра
0

ответов
JavaScript

+2 ещё

Простой
Как скачать pdf из встроенного просмотрщика на сайте?
- 1 подписчик
- 7 часов назад
- 105 просмотров
1

ответ
PHP

+1 ещё

Простой
Как в php формировать ответ на AJAX XMLHttpRequest запрос?
- 1 подписчик
- вчера
- 93 просмотра
0

ответов
PHP

+2 ещё

Средний
Запросы soap в инфоклинику на php?
- 1 подписчик
- вчера
- 133 просмотра
2

ответа
PHP

Простой
Не работает часть скрипта PHP при смены PHP 7 на 8?
- 1 подписчик
- вчера
- 203 просмотра
3

ответа
PHP

Средний
Как найти в массиве ответа API нужное значение, при том что значение может быть написано в разном регистре?
- 1 подписчик
- 22 апр.
- 142 просмотра
3

ответа
PHP

+1 ещё

Простой
Как отправить сообщение в определенную тему в группе Telegram боту на PHP?
- 1 подписчик
- 22 апр.
- 90 просмотров
1

ответ
PHP

+1 ещё

Простой
Почему не работает JWT поверка?
- 1 подписчик
- 22 апр.
- 71 просмотр
0

ответов
Показать ещё Загружается…

PHP Developer

YCLIENTS • Москва

от 200 000 до 350 000 ₽

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

Midlle PHP developer (backend)

ИТЦ Аусферр • Магнитогорск

от 100 000 до 160 000 ₽

HFT (high frequency trading) разработка торгового бота c#

24 апр. 2024, в 22:30

200000 руб./за проект

Сверстать лейдинг на Joomla

24 апр. 2024, в 22:11

2000 руб./за проект

SEO сайта услуг

24 апр. 2024, в 21:49

10000 руб./за проект

Answer 1 · 2018-02-27 16:59:54

По сути задачи подобного вида сводятся к следующему:
1. Разбить страницы pdf на отдельные изображения(например с помощью imagemagick)
2. Прогнать изображения через какую-нибудь OCR(например Tesseract)
3. Cпарсить полученные данные

Зачем получать бинарные данные каждой страницы pdf?

Как получить бинарные данные каждой страницы Pdf файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт