Как сделать парсинг страницы каждые 30сек и отдавать результат в XML?

Question

Bjornie @Bjornie

Изучаю Python

Как сделать парсинг страницы каждые 30сек и отдавать результат в XML?

Задача заключается в парсинге одной страницы, а точнее данных в определенной таблице, которые регулярно обновляются. Данные динамические, т.е. на страницу подгружаются через AJAX (смотрел через вкладку Network, запрос делается каждые 10 секунд). Данных там немного. Всего 20 ячеек с числами.

Я хочу сделать простой парсер на Selenium, однако задаюсь вопросом как его поместить на удаленном сервере, чтобы парсинг происходил с заданной периодичностью, и как организовать доступ к полученным данным. Понадобится ли для этого какой-нибудь микро-фреймворк типа Flask?

Вопрос задан более трёх лет назад
1483 просмотра

3 комментария

Подписаться 4 Оценить 3 комментария

javedimka @javedimka

А самому отправлять запрос сложно? Зачем тут селениум, сервера и веб-фреймворки?

Написано более трёх лет назад
Bjornie @Bjornie Автор вопроса

javedimka: я ждал этой реплики. И забыл добавить: не предлагайте делать AJAX запрос напрямую. Хотелось бы помощи по теме, там еще вопросы были. Спасибо :)

Написано более трёх лет назад
latteo @latteo

Pavel Denisov: Не знаю, что у ТС за причины.
То что видел я - это была хитрогенерируемая хеш строка для каждого запроса на основе меняющихся ключей от сервера с непонятно где запрятанным алгоритмом генерации (pack, eval) и раз в несколько раз в сутки меняли названия полей, атрибутов, которые используют для хеша.
Вот в таком случае бывает дешевле делать запросы через браузер/selenium

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 4

4 комментария

Bjornie @Bjornie Автор вопроса

Хорошо, попробую сделать так. А что делать с сохранением и выдачей результатов? Нам нужно воспользоваться этими результатами в прямом эфире на другом сайте, т.е. типо микро-сервис, который отдает XML.

Написано более трёх лет назад
javedimka @javedimka

Bjornie: т.е. тебе в комментах пишут тоже самое, но там тебе это не подходит, а тут "хорошо"? Ну хорошо :D

Написано более трёх лет назад
Bjornie @Bjornie Автор вопроса

javedimka: сравни свой ответ и ответ выше.

Написано более трёх лет назад
javedimka @javedimka

Bjornie: извини, конечно, но моим ответом вообще должна была быть жалоба с причиной "Ответ легко ищется поисковиком", потому что статья о "Парсинге" с помощью селениума есть даже на русском, как залить скрипт на впску тоже, ну а о том, как его запускать через временные промежутки - так тут это на тостере каждую неделю спрашивают.
Единственная причина по которой тебя спрашивали про самостоятельную отправку запроса так это то, что в ответ может приходит структурированный Json который можно одной строкой преобразовать в xml и отправить куда нужно и получить скрипт длинной в 6 строк, а не в сотню.
Удачи тебе с таким настроем.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как пройти авторизацию на youtube с помощью selenium(python)?
- 1 подписчик
- 2 часа назад
- 15 просмотров
1

ответ
Selenium

Простой
Как проскролить страницу в право в определенном фрейме?
- 1 подписчик
- 9 часов назад
- 14 просмотров
1

ответ
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- 11 часов назад
- 107 просмотров
0

ответов
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- 11 часов назад
- 21 просмотр
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- 13 часов назад
- 22 просмотра
0

ответов
Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- вчера
- 121 просмотр
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- вчера
- 91 просмотр
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- 22 апр.
- 202 просмотра
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- 22 апр.
- 149 просмотров
2

ответа
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- 22 апр.
- 171 просмотр
3

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Создание и публикация короткого (reels) UGC-видео на YouTube-канале

25 апр. 2024, в 01:46

500 руб./за проект

Настроить перехват https-трафика для android-приложения

25 апр. 2024, в 01:02

10000 руб./за проект

Программа (скрипт) для автоматизации торговли Solana

25 апр. 2024, в 00:45

100 руб./в час

А самому отправлять запрос сложно? Зачем тут селениум, сервера и веб-фреймворки?
javedimka: я ждал этой реплики. И забыл добавить: не предлагайте делать AJAX запрос напрямую. Хотелось бы помощи по теме, там еще вопросы были. Спасибо :)
Pavel Denisov: Не знаю, что у ТС за причины.
То что видел я - это была хитрогенерируемая хеш строка для каждого запроса на основе меняющихся ключей от сервера с непонятно где запрятанным алгоритмом генерации (pack, eval) и раз в несколько раз в сутки меняли названия полей, атрибутов, которые используют для хеша.
Вот в таком случае бывает дешевле делать запросы через браузер/selenium

Answer 1 · 2017-08-20 17:52:05

Selenium - использовать в последнюю очередь (если другой метод не подойдет). Раз вы видите запрос (то есть знаете его URL, Header, ну и конечно куки) попробуйте сделать запросы через requests и парсите через LXML. Можно запустить в цикл и зная старт время удержать через time.slip()

Answer 2 · 2017-08-22 14:57:23

в терминале:
crontab -e
в редакторе после всех комментов добавить:

* * * * * /usr/bin/python3 parser.py #запуск скрипта каждую минуту
* * * * * (sleep 30;  /usr/bin/python3 parser.py) #запуск скрипта каждую минуту с задержкой в 30 сек

Данные хранить в БД, доступ обращением к БД. Можно еще на jupyterе поднять сервер и его средствами проводить обработку и визуализацию.

Answer 3 · 2017-08-25 04:21:40

Evgen @Verz1Lka

Web scraping expert

Сделайте на scrapy. Парсеры делаются легко, есть экпорт в XML из коробки.

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2017-08-27 23:20:07

froststorm @froststorm

Таблица парсится тремя строками через pandas

Ответ написан более трёх лет назад

Комментировать

Как сделать парсинг страницы каждые 30сек и отдавать результат в XML?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт