Как реализовать парсер?

Question

Egorian @Egorian

Как реализовать парсер?

Мне нужен парсер, который сможет отпарсить сайт с 11000 страниц. Парсер делать подсчет некоторых данных из текста с этих страниц.

url="https://website/post"
def parser(): 
 for num in range(1,11000):
    #получаю страницу сайта
    BeautifulSoup=bs4.BeautifulSoup( requests.get(url+str(num)).text,"html.parser" )
    # получаю блок с текстом
    post_text=BeautifulSoup.select(".post-text")
    print( "num= %s  " % num)
    try:
     print(post_text)
     print(post_text[0].text)
     ###
     ###Тут я обрабатываю текст и сохраняю число в переменную size
     ###
    except IndexError:
        pass
print(size)

Я сомневаюсь, что это будет быстро, поэтому думаю тут нужна многопоточность, но с ней я полностью не разобрался.
Как такую задачу разделить на потоки?
На каждый поток выделить определенное количество страниц, чтобы одну и та же страница не парсилась несколько раз?
Как тогда сохранить конечную переменную size из каждого потока? Сохранять в файл, приплюсовывая к тому числу, что уже есть в файле от других потоков? Или в массив?
В мультипоточности я не шарю, т.к. только начал всё это изучать

Вопрос задан более трёх лет назад
348 просмотров

7 комментариев

Подписаться 1 Простой 7 комментариев

Евгений @immaculate

11000 страниц это ничто даже для самого медленного языка. Затраты времени на попытку вкорячить многопоточность явно будут в несколько раз выше, чем возможный выигрыш в скорости.

Написано более трёх лет назад
Egorian @Egorian Автор вопроса

Евгений, ну у меня ~65страниц/мин. Это нормальная скорость?

Написано более трёх лет назад
Евгений @immaculate

Egorian, Не знаю, но если не требуется парсить сайт десятки раз, то нормальная, переписывание на потоки явно займет у вас больше трех часов.

И еще зависит от того, что медленно: скачивание страниц или парсинг. А еще многие сайты не дадут вам скачивать несколько страниц одновременно.

Написано более трёх лет назад
Egorian @Egorian Автор вопроса

Евгений, а не можно скачивать страницы в эконом варианте? Допустим, только текст? Может это ускорить процесс?

Написано более трёх лет назад
Евгений @immaculate

Egorian, у вас и так скачивается только текст. :)

Написано более трёх лет назад
Игорь Статкевич @MadInc

Потоки хорошо, если сайт сможет "отдать" столько, и не забанит вас за количество запросов, тут уэе прокси подключать, если на один раз то пусть парсит в один поток за ночь спарсит. Про потоки стоит почитать, но не забудьте почитать и про очередь это немаловажно.

Написано более трёх лет назад
Egorian @Egorian Автор вопроса

MadInc, да я так и сделал

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- 5 часов назад
- 63 просмотра
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- 6 часов назад
- 45 просмотров
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- вчера
- 167 просмотров
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- вчера
- 129 просмотров
2

ответа
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- вчера
- 150 просмотров
3

ответа
Python

Средний
Почему Низкий FPS анализ изображения yolov8 YOLO?
- 1 подписчик
- вчера
- 26 просмотров
0

ответов
Python

+2 ещё

Простой
Почему Планировщик задач Windows 10 не выполняет скрипт Python?
- 3 подписчика
- вчера
- 1526 просмотров
3

ответа
Python

+1 ещё

Средний
Как переместить мышь вместе с элементом в pyppeteer?
- 1 подписчик
- 21 апр.
- 90 просмотров
0

ответов
Python

+2 ещё

Простой
OK.RU, API приложений, не могу загрузить видео: User must grant an access to permission 'VIDEO_CONTENT'". Как получить этиправа для приложения?
- 1 подписчик
- 21 апр.
- 54 просмотра
1

ответ
Python

+1 ещё

Средний
Сервер C# не принимает сообщения от клиента. Почему так?
- 1 подписчик
- 21 апр.
- 124 просмотра
0

ответов
Показать ещё Загружается…

Python developer

Bell Integrator

До 350 000 ₽

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

TeamLead Python

AGIMA • Москва

До 350 000 ₽

Разработка дизайна раздела «Статьи» на сайте «Мир отходов»

23 апр. 2024, в 23:01

10000 руб./за проект

Дизайн личного кабинета (клиентская часть)

23 апр. 2024, в 22:37

500 руб./в час

Скрипт для Solana быстрый

23 апр. 2024, в 22:33

25000 руб./за проект

11000 страниц это ничто даже для самого медленного языка. Затраты времени на попытку вкорячить многопоточность явно будут в несколько раз выше, чем возможный выигрыш в скорости.
Евгений, ну у меня ~65страниц/мин. Это нормальная скорость?
Egorian, Не знаю, но если не требуется парсить сайт десятки раз, то нормальная, переписывание на потоки явно займет у вас больше трех часов.

И еще зависит от того, что медленно: скачивание страниц или парсинг. А еще многие сайты не дадут вам скачивать несколько страниц одновременно.
Евгений, а не можно скачивать страницы в эконом варианте? Допустим, только текст? Может это ускорить процесс?
Egorian, у вас и так скачивается только текст. :)
Потоки хорошо, если сайт сможет "отдать" столько, и не забанит вас за количество запросов, тут уэе прокси подключать, если на один раз то пусть парсит в один поток за ночь спарсит. Про потоки стоит почитать, но не забудьте почитать и про очередь это немаловажно.

Answer 1 · 2018-07-28 23:56:35

Джок Таннер @Tanner

Огромный человекоподобный боевой робот

Используйте Scrapy, оно умеет в потоки.

Ответ написан более трёх лет назад

Комментировать

Как реализовать парсер?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт