Как извлечь слова из PDF файла по маске и сложить их в список?

Question

tuccar @tuccar

PDF

Как извлечь слова из PDF файла по маске и сложить их в список?

Добрый день.
Есть файл PDF в несколько сотен или тысяч страниц. Почти на каждой странице этого файла есть конкретное слово "город", а после слова "город" находится собственно само название города. Как извлечь из всего этого документа все названия городов, которые стоят после слова "город" (то есть без самого слова "город") и выдать их одним списком один под другим?
Есть ли для этого программы специальные, или пишутся скрипты на ЯП? Буду рад любой полезной информации (могу не ограничиваться только радостью:) ).
Спасибо.

Вопрос задан более трёх лет назад
122 просмотра

Комментировать

Подписаться 1 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

JavaScript

+2 ещё

Простой
Как скачать pdf из встроенного просмотрщика на сайте?
- 1 подписчик
- 24 апр.
- 203 просмотра
1

ответ
Браузеры

+1 ещё

Простой
Что делать, если не открываются pdf файлы в браузерах?
- 1 подписчик
- 15 апр.
- 148 просмотров
1

ответ
Linux

+3 ещё

Простой
Чем распознать текст на картинках в PDF?
- 1 подписчик
- 30 мар.
- 259 просмотров
1

ответ
JavaScript

+2 ещё

Средний
Как скачать защищенный от скачивания PDF-файл с сайта?
- 5 подписчиков
- 11 мар.
- 1909 просмотров
2

ответа
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Как уменьшить размер PDF на сервере?
- 1 подписчик
- 01 мар.
- 95 просмотров
3

ответа
PDF

+1 ещё

Средний
Как выполнить конвертацию пдф изображений в текст?
- 1 подписчик
- 25 февр.
- 112 просмотров
1

ответ
PDF

+1 ещё

Простой
Как печать PDF из Microsoft EDGE с авто выбором источника бумаги под размер страницы?
- 1 подписчик
- 15 февр.
- 109 просмотров
1

ответ
PHP

+2 ещё

Сложный
Как можно убрать отступ в PDF созданный чрез DomPDF, язык PHP?
- 1 подписчик
- 11 февр.
- 162 просмотра
1

ответ
PHP

+2 ещё

Простой
Если ли PHP-библиотека для конвертации HTML c CSS Grid в PDF?
- 1 подписчик
- 07 февр.
- 122 просмотра
2

ответа
CSS

+2 ещё

Простой
Как убрать цветные полосы в pdf версии html файла?
- 1 подписчик
- 24 дек. 2023
- 81 просмотр
0

ответов
Показать ещё Загружается…

Управляющий разработкой и поддержкой проектов

ktonado.digital

от 50 000 до 100 000 ₽

React Native разработчик

Petsee

от 90 000 до 150 000 ₽

Java TeamLead

Bell Integrator • Москва

До 400 000 ₽

Короткая цикличная анимация в Cinema 4D

07 мая 2024, в 17:11

2000 руб./за проект

Разработка парсера на Phyton

07 мая 2024, в 17:06

10000 руб./за проект

Создать комикс с помощью ИИ на заданную тему

07 мая 2024, в 17:00

30000 руб./за проект

Answer 1 · 2016-04-30 21:19:52

Могу помочь только ссылками:
pdfbox.apache.org
Как с помощью PHP можно распарсить PDF?
Автоматизированный перегон PDF в SQL
Информации там довольно много. Есть, конечно, всякие нюансы в зависимости от того, что из себя представляют исходные файлы, но я, пользуясь тем, что написано по ссылкам, скорее всего, смог бы это сделать, значит, сможете и вы :)

Как извлечь слова из PDF файла по маске и сложить их в список?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт