Конвертация таблиц без границ ячеек из pdf в excel или csv?

Question

ac130kz @ac130kz

Конвертация таблиц без границ ячеек из pdf в excel или csv?

Имеется pdf файл с многостраничной таблицей без границ ячеек.

Пример пары рядов:

Скачать pdf файл

Необходимо преобразовать в excel или csv с правильным разделением по ячейкам. Сложность заключается в том, что множество конвертеров, в том числе и встроенный в Adobe Acrobat, PyPDF2 и другие считывают файл неправильно - добавляют лишние строки и ломают разметку. Я приспособился использовать программу PDF2XL, в которой есть ручной режим, позволяющий задать вручную границы для ячеек. Однако, хотелось бы автоматизировать данный процесс с помощью Python или на другом языке.

Вопрос задан более трёх лет назад
1516 просмотров

Комментировать

Подписаться 5 Средний Комментировать

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 2

Комментировать

3 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- 4 часа назад
- 38 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как скачать pdf из встроенного просмотрщика на сайте?
- 1 подписчик
- 4 часа назад
- 92 просмотра
1

ответ
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- 4 часа назад
- 13 просмотров
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- 6 часов назад
- 18 просмотров
0

ответов
Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- вчера
- 112 просмотров
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- вчера
- 84 просмотра
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- вчера
- 194 просмотра
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- 22 апр.
- 144 просмотра
2

ответа
Excel

Средний
Как проверить содержимое ячейки на наличие слова из диапазона?
- 1 подписчик
- 22 апр.
- 34 просмотра
1

ответ
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- 22 апр.
- 168 просмотров
3

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Разработка приложения на Flutter

24 апр. 2024, в 19:18

50000 руб./за проект

Сайт с вебзвонками и чатами на react

24 апр. 2024, в 19:05

15000 руб./за проект

Создать Телеграм бота (под запуск курса)

24 апр. 2024, в 18:39

80000 руб./за проект

Answer 1 · 2017-11-16 00:32:15

Для решения подобной задачи я писал скрипт, который использовал pdfminer.
Основные операции, которые он выполнял:
1. конвертировал pdf в xml. Вот пример результата преобразования.

<textbox id="17" bbox="384.771,365.240,431.953,377.063">
<textline bbox="384.771,365.240,431.953,377.063">
<text font="DJHCLP+TT66ACo00" bbox="384.771,365.240,396.357,377.063" size="11.823">N</text>
<text font="DJHCLP+TT66ACo00" bbox="396.337,365.240,408.821,377.063" size="11.823">G</text>
<text font="DJHCLP+TT66ACo00" bbox="408.800,365.240,419.489,377.063" size="11.823">S</text>
<text font="DJHCLP+TT66ACo00" bbox="419.469,365.240,431.953,377.063" size="11.823">O</text>
</textline>
</textbox>

Значение атрибута bbox это координаты текста X1, Y1, X2, Y2.
2. парсил xml, создавал "текстовые элементы";
3. вычислял среднее значение Y для элементов. Те элементы, у которых средний Y одинаковый, принадлежат одной строке, при условии что они находятся на одной странице;
4. сортировал элементы по номеру страницы и среднему Y;
5. сортировал элементы принадлежащие одной строке по X1;
6. собирал строки в нужном формате из отсортированных элементов.

Answer 2 · 2017-11-15 20:37:10

Увы, формат pdf вообще не знает ничего про таблицы, нет в нем таких структур. А сам pdf был придуман для препринта и несет в себе только текст-графику и инструкции по их позиционированию на странице. Каждая ячейка представляет блок текста и инструкции по позиционированию, всё. Мы в свое время специально извращались, чтобы затруднить копирование, перемешивали блоки в pdf, тогда вообще копипаст представлял из себя чудовищную кашу из обрывков разных абзацев страницы. Так что формально из pdf ничего осмысленно-структурированного вытащить не получится. Если хотите как-то обмениваться таблицами, то для этого есть и xls и csv и xml...
Собственно, в pdf можно что-то положить, а вот обратно - хреново.
Да и как формат он был придуман из обрезков postscript - языка для печати, вот туда-обратно конвертация безупречная :-)

Answer 3 · 2017-11-15 19:52:41

Dimonchik @dimonchik2013

non progredi est regredi

pdf в Питоне тяжело

преобразуй в csv, обрабатывай масками, оттуда в ексель

Ответ написан более трёх лет назад

3 комментария

Конвертация таблиц без границ ячеек из pdf в excel или csv?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт