@Artur937
junior

Как из файла PDF с тестами и ответами спарсить информацию в бд?

Файл PDF выглядит так, содержит сотни тестов

5c56c11f7d48d199043196.png

Занимаюсь web программированием, но сейчас тот момент, когда не знаю с чего начать. Подскажите пожалуйста, что нужно сделать, чтобы спарсить эту информацию в виде отдельных вопросов в бд. Буду очень благодарен!)
  • Вопрос задан
  • 238 просмотров
Решения вопроса 2
sergey-gornostaev
@sergey-gornostaev Куратор тега Python
Седой и строгий
Изучить библиотеки PyPDF, PDFMiner, minecart и попробовать с их помощью проанализировать ваш документ.
Ответ написан
Комментировать
@grinat
Pdf.js умеет извлекать данные из pdf: https://mozilla.github.io/pdf.js/examples/
Типа такого:
const pdf = await pdfjs.getDocument('my.pdf')
for (let j = 1; j <= pdf.pdfInfo.numPages; j++) {
    const page = await pdf.getPage(j)
    const list = await page.getOperatorList()
    console.log(list)
}
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы