Web scraping Python, как лучше?

Question

TchernyavskyDaniil @TchernyavskyDaniil

Web scraping Python, как лучше?

Утро доброе.
Есть задание, сделать парсеры для определенных сайтов. Все желательно без API
Одни из этих сайтов - Linkedin, Instagram.
У меня довольно необычный (наверно) вопрос. В этом деле я совсем новичек, решил делать с помощью библиотек: BS4, fake_user, Scrapy, Selenium, Requests. Собственно когда добрался до инсты, столкнулся с проблемой, что подргрузка страницы осуществляется динамически, то есть:
Фото инстраграма (хтмл именно) грузится кусками, если откроем профиль - будет 12, пролистаем вниз, будет не все кол-во, а только часть. Как я понял, с помощью Аякса, ну и то, что сама Инста на Реакте, Вирт DOM (если я не прав, извините, поправьте пожалуйста). Выход я нашел в лице Selenium.
Что я делаю:
Запускаю прогу, Селениум заходит в браузер, авторизуется, выбирает нужного пользователя (которого хочу скрапить) и с помощью прописанного скрипта Скролл вниз на JS, собственно скролит вниз :) Собираю фото, хеш-теги к фото, основную информацию страницы, так же, как и Фото, открываю список подписчиков, скролю определенное кол - во и собираю список их. Все заливаю в Эксель/csv, фото просто выгружаю в папку.
Скажите пожалуйста, как можно проще? Я понимаю, возможно я делаю СОВСЕМ не правильно, но опыта нет.
С Linkedin примерно такая же ситуация. (Селениум - Авторизация - Гуглю 'Python Developer' - Беру определенное кол-во - Каждого открываю, беру инфу и добавляю).
На очереди Твитер, все же наверно через API буду :)

Вопрос задан более трёх лет назад
1541 просмотр

Комментировать

Подписаться 2 Средний Комментировать

Пригласить эксперта

Ответы на вопрос 2

8 комментариев

TchernyavskyDaniil @TchernyavskyDaniil Автор вопроса

Я понимаю, но посыл был простой - задание без АПИ, а почему, потому что потому. Наверно, руководствовался преподаватель тем, что АПИ ограничены в функционале. Мой вопрос как проще, без АПИ :)

И опять же, не ко всему есть АПИ открытое.

Написано более трёх лет назад
l1l1l1 @l1l1l1

Значит разбирайте весь трафик который отправляет и получает сайт вручную и на GET'ах и POST'ах реализуйте.
Кстати, это достаточно просто.
Кстати, а чем сейчас не устраивает Selenium?

Написано более трёх лет назад
TchernyavskyDaniil @TchernyavskyDaniil Автор вопроса

l1l1l1, Устраивает :) Мне просто любопытно, как можно проще.

Написано более трёх лет назад
l1l1l1 @l1l1l1

TchernyavskyDaniil, что вы имеете ввиду под "проще"? Что вы хотели бы упростить ?

Написано более трёх лет назад
TchernyavskyDaniil @TchernyavskyDaniil Автор вопроса

l1l1l1, Быстрее чтобы делало. Ну это грубо говоря. Авторизация - время. Переход к профилю - время. Скролл - время и тд.

Написано более трёх лет назад
l1l1l1 @l1l1l1

TchernyavskyDaniil,
Так и нужно спрашивать - как сделать так что бы работало быстрее, быстрее и проще - никак.
Просто быстрее:
1. api
2. снифать запросы сайта которые получают нужные тебе данные, и отправлять их вручную.

https://indianpythonista.wordpress.com/2016/12/10/...

Написано более трёх лет назад
TchernyavskyDaniil @TchernyavskyDaniil Автор вопроса

l1l1l1, Спасибо за ответ. Хотя бы буду понимать, что не совсем плохой способ выбрал.

Написано более трёх лет назад
l1l1l1 @l1l1l1

TchernyavskyDaniil, и еще, ускорить парсинг вы можете используя много-поточность к примеру, или в селениуме запретить загрузку css, img и так далее (ссылки на картинки и т.п останутся), просто браузер не будет рендерить лишние элементы которые замедляют скорость загрузки.

Написано более трёх лет назад

3 комментария

TchernyavskyDaniil @TchernyavskyDaniil Автор вопроса

Да, я это сам понимаю разумеется) Преподаватель сказал так, я тут мало что могу поделать, код он проверит, увидит Апишки и будет не очень.
Хороший бонус. А то приходится ВПН юзать.

Написано более трёх лет назад
l1l1l1 @l1l1l1

TchernyavskyDaniil, Я выполнял аналогичный заказ, и там была важна скорость парсинга... странный у вас "Преподаватель"

Написано более трёх лет назад
Fixid @Fixid

TchernyavskyDaniil, как бывший "вроде нормальный преподаватель" могу пожаловаться на рамки учебного процесса и утвержденные методички в которых понятия API вобще не существует. Так что если следовать букве учебного процесса, на выходе будете знать фортран и делфи. Да даже чертовы уроки БД превращались в цирк по документам

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Как написать программу для определения количества осей симетрии четыреугольника?
- 1 подписчик
- 15 минут назад
- 14 просмотров
1

ответ
Python

Простой
Как в конце каждой строки файла добавить тэг??
- 1 подписчик
- час назад
- 34 просмотра
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- час назад
- 23 просмотра
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- 19 часов назад
- 155 просмотров
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- вчера
- 119 просмотров
2

ответа
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- вчера
- 145 просмотров
3

ответа
Python

Средний
Почему Низкий FPS анализ изображения yolov8 YOLO?
- 1 подписчик
- вчера
- 24 просмотра
0

ответов
Python

+2 ещё

Простой
Почему Планировщик задач Windows 10 не выполняет скрипт Python?
- 3 подписчика
- вчера
- 1235 просмотров
3

ответа
Python

+1 ещё

Средний
Как переместить мышь вместе с элементом в pyppeteer?
- 1 подписчик
- вчера
- 87 просмотров
0

ответов
Python

+2 ещё

Простой
OK.RU, API приложений, не могу загрузить видео: User must grant an access to permission 'VIDEO_CONTENT'". Как получить этиправа для приложения?
- 1 подписчик
- 21 апр.
- 53 просмотра
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Необходимо отверстать страницу сайта с мобильной версией и адаптивным

23 апр. 2024, в 17:59

1000 руб./в час

Разместить объявления на Авито

23 апр. 2024, в 17:47

10000 руб./за проект

Осуществлять оптовые продажи товаров для дома

23 апр. 2024, в 17:43

30000 руб./за проект

Answer 1 · 2018-04-25 07:01:19

l1l1l1 @l1l1l1

Используйте API - там ничего сложного нет, да же наоборот вы сильно упростите себе работу.

Ответ написан более трёх лет назад

8 комментариев

Answer 2 · 2018-04-25 10:32:03

В общем подход верный и рабочий, но работа через API всегда проще и удобнее.
Дополнительным бонусом получаете маскировку под нормального пользователя.

Web scraping Python, как лучше?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт