Как сделать парсер на python учитывая что переход по страницам осуществяется на javascript?

Question

Алексей @MrSen

Как сделать парсер на python учитывая что переход по страницам осуществяется на javascript?

Добрый день!
Я только начал разбирать python и о нем мало что знаю.
Столкнулся с такой проблемой на примере статьи gis-lab.info/qa/scrapy.html сделал парсер, но когда начал переделывать под свои нужды а именно:
Сделать парсер сайта https://bankrot.fedresurs.ru/ArbitrManagersList.aspx для получения всех FIO и URL увидел что все постраничная навигация осуществляется методом ajax запроса. Как можно сделать парсер использую python? Заранее спасибо!

Вопрос задан более трёх лет назад
2461 просмотр

Комментировать

Подписаться 8 Оценить Комментировать

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Как в конце каждой строки файла добавить тэг??
- 1 подписчик
- 22 минуты назад
- 24 просмотра
0

ответов
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- 40 минут назад
- 18 просмотров
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- 19 часов назад
- 154 просмотра
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- 23 часа назад
- 117 просмотров
2

ответа
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- вчера
- 143 просмотра
3

ответа
Python

Средний
Почему Низкий FPS анализ изображения yolov8 YOLO?
- 1 подписчик
- вчера
- 24 просмотра
0

ответов
Python

+2 ещё

Простой
Почему Планировщик задач Windows 10 не выполняет скрипт Python?
- 3 подписчика
- вчера
- 1176 просмотров
3

ответа
Python

+1 ещё

Средний
Как переместить мышь вместе с элементом в pyppeteer?
- 1 подписчик
- вчера
- 87 просмотров
0

ответов
Python

+2 ещё

Простой
OK.RU, API приложений, не могу загрузить видео: User must grant an access to permission 'VIDEO_CONTENT'". Как получить этиправа для приложения?
- 1 подписчик
- 21 апр.
- 53 просмотра
1

ответ
Python

+1 ещё

Средний
Сервер C# не принимает сообщения от клиента. Почему так?
- 1 подписчик
- 21 апр.
- 120 просмотров
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Разработать видеочатбота с ответами на вопросы абитуриентов

23 апр. 2024, в 17:07

6500 руб./за проект

Разработать прототип для бч Solana

22 апр. 2024, в 16:15

18000 руб./за проект

Wagtail(Django)

23 апр. 2024, в 16:55

10000 руб./за проект

Answer 1 · 2016-04-11 19:07:29

В данном случае достаточно установить печенку AmListSearch в значение PageNumber=N, запросить станицу по этому же адресу и получить в ответе список, открытый сразу со страницы N.
Например:

$ curl --cookie "AmListSearch=PageNumber=12" https://bankrot.fedresurs.ru/ArbitrManagersList.aspx > bankrot.html
$ firefox bankrot.html

А вообще, в подобных случаях следует действовать по примерно такому алгоритму:

Через FireBug (или встроенную панель разработчика Tools->Web_Developer->Network) отловить исходящий HTTP-запрос на действие, вызывающее подгрузку AJAX-контента.
Определить через какой параметр передается переменная (номер страницы, например). Это может оказаться не только параметр GET-запроса, но и поле POST-формы, или печенка, или даже произвольный кастомный HTTP-заголовок.
Определить формат и структуру ответа. Это может быть произвольный HTML-фрагмент (чаще всего), или целый HTML-документ, или XML, или JSON (самый правильныйЪ вариант с точки зрения разработки), или вообще произвольный текстовый формат, который парсится скриптом после получения (именно такой бредовый формат имеем в данном случае, я даже не стал его разглядывать, сразу попробовал обходные пути и нашел же один).
Написать скрипт, который формирует запросы, подобные тем, что уходят со страницы, и парсит ответы.

Answer 2 · 2016-04-21 09:46:29

В качестве альтернативы в теории можно прикрутить PhantomJS в качестве webdriver для Selenium. Правда сам не пробовал. Когда была задача по парсингу сайтов, то мне было проще пересесть напрямую за PhantomJS/SlimerJS. Но там было много сайтов с похожей структурой и не было возможности руками разбираться где есть ajax, а где нет.

Как сделать парсер на python учитывая что переход по страницам осуществяется на javascript?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт