tuccar
@tuccar

Как извлечь слова из PDF файла по маске и сложить их в список?

Добрый день.
Есть файл PDF в несколько сотен или тысяч страниц. Почти на каждой странице этого файла есть конкретное слово "город", а после слова "город" находится собственно само название города. Как извлечь из всего этого документа все названия городов, которые стоят после слова "город" (то есть без самого слова "город") и выдать их одним списком один под другим?
Есть ли для этого программы специальные, или пишутся скрипты на ЯП? Буду рад любой полезной информации (могу не ограничиваться только радостью:) ).
Спасибо.
  • Вопрос задан
  • 122 просмотра
Пригласить эксперта
Ответы на вопрос 1
Могу помочь только ссылками:
pdfbox.apache.org
Как с помощью PHP можно распарсить PDF?
Автоматизированный перегон PDF в SQL
Информации там довольно много. Есть, конечно, всякие нюансы в зависимости от того, что из себя представляют исходные файлы, но я, пользуясь тем, что написано по ссылкам, скорее всего, смог бы это сделать, значит, сможете и вы :)
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы