@burn_bridges

Как спарсить определенные pdf документы с сайта, которые содержат нужные слова?

Есть картотека арбитражного суда (kad.arbitr.ru), которая содержит различные открытые документы в pdf.
Нужно спарсить ссылки на документы, в которых присутствуют определенные ключевые слова.

Я еще только изучаю python, так что прошу дать наводку в какую сторону двигаться, что почитать/посмотреть, какие особенности учитывать. Может есть какие-то похожие решения?

Как понимаю сайт картотеки на javascript - будут ли тут какие-то сложности?
После нескольких поисковых запросов вылезает капча - в этом будет какая-то проблема при парсинге?
  • Вопрос задан
  • 223 просмотра
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы