Hateman31
@Hateman31
Делиться мыслями - это круто!

Как распарсить doc-файл на Python?

Файл - это типа несколько подряд идущих записей вида:
абзац1: Название
абзац2: <картинка>
абзац3: Описание
Нужно весь этот хлам занести в БД, но проблема в том, что шрифты и и переносы как зря( то бишь здесь Описание и Картинка подряд, а там между ними уже пустая строка, а вон там последняя строка описания граничит с новым названием и т.п.), а с режексами у меня грустно( я пока не вкурил толком их).

Какими модулями пользоваться( ссыли на маны приветствую) и какие режексы задействовать?
  • Вопрос задан
  • 6183 просмотра
Пригласить эксперта
Ответы на вопрос 2
Regex курить обязательно + любой сложный парсинг имеет ненулевой вариант погрешности
Можешь качнуть Xamarin Studio - мне там тестировалка Regex-оф встроенная понравилась - свою накорябать всё руки не доходят )
Ответ написан
Комментировать
@snowpiercer
Парсить doc-файл регулярными выражениями? Сомнительно (в таких случаях принято давать ссылку на stackoverflow.com/a/1732454/2402125).

Есть специальные бибилиотеки для парсинга doc-файлов (docx, на самом деле), например https://github.com/mikemaccana/python-docx/
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы