Парсинг сайта. Как бы вы сделали?

Доброго времени суток!
Прошу помощи в решении одной задачи в парсинге сайта.
Цель парсинга - любой сайт букмекерской компании, например 1xstavka.ru
Задача - парсинг предматчевой линии (вид спорта, турнир, время начала, участники, коэффициенты(максимальное количество рынков)) и запись полученных данных в БД
Так же необходимо максимально быстро получать данные о изменении коэффициента и новых событиях.

Интересующие вопросы:
1. Какой стек технологий вы бы использовали для решения поставленной задачи? (на каком ЯП лучше всего писать код, необходимые библиотеки и фреймворки)
2. Как обойти возможный бан по ip из-за большого количества http запросов на сайт?
3. Каким образом можно добиться максимально быстрого получения данных о изменении коэффициентах во всех спортивных событиях на сайте?
  • Вопрос задан
  • 790 просмотров
Пригласить эксперта
Ответы на вопрос 2
kshnkvn
@kshnkvn
t.me/kshnkvn
1. Python
2. Прокси. Если есть возможность немного потратиться - luminati (быстрые сервера, большое кол-во, сам выгребаю с их помощью инфу с 3х спорт-сайтов ежеминутно). Если нет денег - пишите парсер для прокси-сайтов, фильтруйте эти прокси под конкретный сайт и делайте прокси ротатор, что-бы каждый запрос отправлялся с разного IP.
3. В идеале парсить не сайт, а запросы. Заходите на сайт, открываете dev tools - network и смотрите какие запросы отдаёт/принимает сайт. Очень часто на подобных сайтах используется что-то типа API и у вас будет возможность загрузить json/xml/etc по матчам, что очень сильно ускорит парсинг. Если же нет, то возвращаемся к пункту 1 и добавляем туда lxml что-бы парсить сайт.
Ответ написан
ЯП Python, лучший вариант парсера по моему личному мнению BeautifulSoup, обход бана можно через прокси т.е эти самые БК постоянно в России банятся придется либо постоянно менять адреса БК, либо использовать забугровые прокси.
Вот хорошие уроки по BeautifulSoup учит парсингу от А до Я вплоть до распознавания цифр на картинке из информации которую спарсил скрипт. proglib Лучше него не находил, может плохо искал.
upd: Так-же у proglib в том курсе рассказывается как обходить баны)
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы