Как в несколько потоков проверять существование url?

Question

Ivan Yakushenko @kshnkvn

yay ✌️ t.me/kshnkvn

Как в несколько потоков проверять существование url?

Есть простой код, которым проверяю на валидность страницы:

def check_url():
    for page in range(0, 239999):
        soup = BeautifulSoup(get_html(url + str(page)), 'html.parser')
        if soup.find('h3', class_='description_404_A hide'):
            print('Page not exists: {}'.format(url + str(page)))
        else:
            print('Page found: {}'.format(url + str(page)))
            with open('pages.txt', 'a') as file:
                file.write(url + str(page) + '\n')

Естественно проверять на существование 239999 страниц чуть-чуть долго.
Как вариант я могу просто запустить несколько потоков с multiprocessing, каждый из которых будет проверять свой диапазон страниц, но я не думаю, что это python-way.

Вопрос задан более трёх лет назад
245 просмотров

2 комментария

Подписаться 1 Средний 2 комментария

Решения вопроса 2

36 комментариев

sim3x @sim3x

Если не охото парится, то испольуем scrapy - без aws булшита

Написано более трёх лет назад
Иван Шумов @inoise

sim3x, ой как мне не нравятся такие кустарные решения)

Написано более трёх лет назад
sim3x @sim3x

Иван Шумов, вот и я ж говорю, что не нужно тут aws приплетать

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Я правильно понимаю, что вы предлагаете мне вместо запуска десятка строк кода в ~30 потоков на сервере, что даст мне результат за несколько часов, пойти и изучать что такое "AWS SQS + AWS Lambda" с учетом того, что я вообще не понимаю что это и никогда не работал?
P.S. Это как-то связано с тем, что вы "AWS Certified"?

Написано более трёх лет назад
Иван Шумов @inoise

sim3x, его я буду толкать всегда и везде по тому как ну слишком удобно на нем делать все что к полу не приколочено)

Написано более трёх лет назад
sim3x @sim3x

Иван Шумов,
Оно проходит после того, как амазон счет выставляет, а советчик перестает выходить на связь )

Написано более трёх лет назад
Иван Шумов @inoise

Ivan Yakushenko, я не предлагаю именно вам, а говорю что при знаниях можно ваши несколько часов упихать в несколько минут. Вы серьезно результат такой бесполезной обработки хотите ожидать часами? Еще и получить бан своего IP?

Написано более трёх лет назад
Иван Шумов @inoise

sim3x, для этого надо читать раздел pricing)

Написано более трёх лет назад
sim3x @sim3x

Иван Шумов,
Енто потом все понимают

А в советах обычно никто не пишет, как правильно посчитать мудреные лимиты и косты простого решения

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Иван Шумов, 1 - я не собираюсь сидеть перед монитором и "ждать", думаю я найду чем заняться, пока скрипт где-то там на сервере работает. 2- прокси же.

Написано более трёх лет назад
Иван Шумов @inoise

sim3x,
А в советах обычно никто не пишет, как правильно посчитать мудреные лимиты и косты простого решения

я как-то уже привык что с этого начинается, а не этим заканчивается)

Написано более трёх лет назад
Иван Шумов @inoise

Ivan Yakushenko, ваше дело. Но если у себя то кролик вам в помощь - накидали заданий, поставили сколько хотите обработчиков (сколько проц позволяет) и вперед. Скорость кролика из коробки - 10к сообщений в секунду.

Написано более трёх лет назад
sim3x @sim3x

Иван Шумов, Оу

Я еще раз перечитал ваш ответ и не увидел ничего такого

Написано более трёх лет назад
Astrohas @Astrohas

На самом дела AWS LAmbda хорош когда его знаешь и есть время на трахание с ним. Делал обработчик нескольких миллионов изображений на lambda, работало очень быстро, но разработка заняла втрое больше времени

Написано более трёх лет назад
Иван Шумов @inoise

Astrohas, это по первой. я вот когда стал играть с Lambda@Edge для их CDN вообще делал круглые глаза и кричал "это вообще законно?!"

Написано более трёх лет назад
Иван Шумов @inoise

sim3x,
Я еще раз перечитал ваш ответ и не увидел ничего такого

Просто по тому что мне это очевидно, вам это очевидно. Мне настолько что даже не озвучиваю этот постулат

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Иван Шумов, в целом за ваш совет спасибо, rabbitmq и aws lambda я в закладки добавил, но изучение этого занятие не на один вечер, так что не сейчас.

Написано более трёх лет назад
sim3x @sim3x

Иван Шумов,
Я видимо неправильно формулирую вопрос
Я просил указать в ответе, как посчитать цену указанной вашей связки в деталях

Написано более трёх лет назад
Иван Шумов @inoise

sim3x, а, просто же. Есть же даже калькулятор.

Написано более трёх лет назад
sim3x @sim3x

Иван Шумов,
в деталях
желательно еще и без их калькулятора
Я уверен, что только для его использования нужно проходить курсы

Тем более, что оно для вас
это очевидно

Написано более трёх лет назад
Иван Шумов @inoise

sim3x,
окай. 239999 запросов надо сделать и куда-то сложить результат.
SQS: хотим быстро, дешево и параллельно поэтому:
Standard Queue
- За запрос: $0.00000040
- Входящий трафик: бесплатно
- Исходящий трафик: до 1Gb / месяц бесплатно (допускаю что средний url весит 256 байт и это 0,06Gb)
FreeTier:
- первый миллион запросов / месяц бесплатно

Lambda
Мощностей больших тут не надо, поэтому рассчет для 256Mb RAM:
- За 100ms: $0.000000417
- 1,600,000 секунд free
- за запрос $0.0000002
FreeTier:
- первый миллион запросов / месяц бесплатно
- 400 000 GB-секунд / месяц бесплатно
Будем считать что таймаут на обработку - 1 секунда (хотя даже при 5 секундах из Free Tier оно не выйдет)

Давайте это хранить ... Ну, в DynamoDB:
Write request units(1 KB): $1.25 за миллион потраченых юнитов ()
Хранилище первые 25 GB / месяц бесплатны
Входящий трафик бесплатен

Ну и в итоге получаем что на 239999 запросов мы спокойно с многократным запасом ничего не тратим.
А если без FreeTier то:

SQS:
Запросы: 0,00000040*239999*2 = $0,1919992 (*2 это по тому что оно pull based)

Lambda:
За время: 0,000000417*239999*10 = $1,00079583
за запросы 0,0000002*239999 = $0,0479998

DynamoDB:
запись: 1,25*0,239999 = $0,29999875

Итого:
0,1919992+1,00079583+0,0479998+0,29999875 = ~$1,54

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Иван Шумов, посоветовать книгу/документацию по aws sqs/lambda можете? Однозначно добавлю в закладки, интересно выглядит.

Написано более трёх лет назад
Иван Шумов @inoise

Ivan Yakushenko, acloud.guru) от А до Я

Написано более трёх лет назад
Иван Шумов @inoise

Ivan Yakushenko, а если не платить за курсы то там очень неплохая дока, но нужно хоть с чего-то начать. А именно общей инфраструктуры AWS. А потом сразу углубляться в Complete Serverless Course

Написано более трёх лет назад
sim3x @sim3x

Иван Шумов, спасибо

Написано более трёх лет назад
Иван Шумов @inoise

sim3x, это действительно было полезно?

Написано более трёх лет назад
sim3x @sim3x

Иван Шумов, да
ПС: я серьезно

Написано более трёх лет назад
Иван Шумов @inoise

sim3x, для общего развития и понимания что serverless не ...

Написано более трёх лет назад
sim3x @sim3x

Иван Шумов,
С aws у меня получается комбинация
- новояз и названия выдуманные самой компанией
- сложный не плоский прайс
- вендорлок

Потому за пределы EC2 я редко выхожу

Написано более трёх лет назад
Иван Шумов @inoise

sim3x, иногда трудно считать стоимость, поэтому есть люди вроде меня, которые знают широко и знают как считать и как оптимизировать стоимость. Например, а EC2 можно жить ТОЛЬКО на Spot Instances, если припрет) и платить копейки.

Вендорлок это не плохо, как я всегда говорил. Любая платформа требует интеграции и даже Premises. Так что слабенький аргумент. А терминология это наживное)

PS В общем - захочешь побольше пообщаться про это - предлагаю перенести в какую-нибудь личку этот флейм или созвониться) Меня может быть не заткнуть, а от топика мы отошли

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Иван Шумов, можете и дальше отходить от темы - мне это самому интересно. Я относительно недавно начал заниматься программированием и очень много различных стеков мне интересны, так что я с удовольствием читаю советы и обсуждения знающих и опытных людей.

Написано более трёх лет назад
Иван Шумов @inoise

Ivan Yakushenko, смотри чтоб голова не лопнула от переизбытка информации) Слона надо жрать по частям

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Иван Шумов, я все интересное в закладки закидываю, а потом по мере времени/знаний/возможности читаю. Недавно чуть-чуть докер освоил, теперь слюной от счастья брыжжу во все стороны, нарадоваться не могу. А в целом на облачные платформы поглядывал давно, но без понимания что это, зачем и с какой стороны подойти. Сейчас на примере конкретных решений базовое понимание появилось, по-этому в закладки и закинул.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Иван Шумов, да и в целом я максимальный ноулайфер - бывают дни, когда программированием по 14-16 часов занимаюсь =)

Написано более трёх лет назад
Иван Шумов @inoise

Ivan Yakushenko,
бывают дни, когда программированием по 14-16 часов занимаюсь

не надо так)

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Иван Шумов, так а заняться то особо и нечем все-равно.

Написано более трёх лет назад

3 комментария

Ivan Yakushenko @kshnkvn Автор вопроса

Почему так много людей хвалят scrappy и плюются в bs4? Так и не смог найти в интернете адекватного сравнения. Можете, пожалуйста, привести хотя-бы несколько аргументов почему мне прямо сейчас стоит бросить bs4 и пойти изучать scrappy?

Написано более трёх лет назад
Roman K @deliro

Ivan Yakushenko, потому что bs — это говно. Вот прям говно-говно. Я тебе говорю, как страдавший раньше человек с 8 (восемь) парсерами в одном проекте, все из которых юзали bs. Он медленный, он синхронный, у него отвратительное API (это ключевое). Приходится строить города из индентаций, потому что этот чёрт просто не умеет в EAFP. Или городить свои недо-функции. Вот например, bs не умеет в xpath. Представляешь? Ключевой функционал любого HTML парсера отсутствует. Живи с этим.

В итоге, я оставил bs, но подкостылил его eventlet'ом и подключил парсер lxml. Но весь этот проект — сущий ад.

Scrapy позволяет параллелить и парсить быстро и без головной боли вообще.

Написано более трёх лет назад
sim3x @sim3x

Ivan Yakushenko,
скрапи комбайн для парсинга
Он умеет все что вам нужно, и то что вы не знаете что хотите - тоже умеет
Скрапи по дефолту использует lxml

bs ненужная прокладка между вами и lxml (потому как bs без lxml никто не использует), которая не решает всех ваших задач

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

7 комментариев

Ivan Yakushenko @kshnkvn Автор вопроса

Чем asyncio лучше multiprocessing?
Я несколько раз "пробовал на вкус" её, но для себя нашел только несколько непонятных моментов с блокирующими операциями и аспектами в плане создания цикла событий, так и отложил пока её в сторону, не найдя внятного ответа на вопрос "почему мне нужно использовать asyncio?".

Написано более трёх лет назад
Astrohas @Astrohas

Ivan Yakushenko, Потому что пока идет загрузка, вы можете делать другие задачи...

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Astrohas, так с multiprocessing я тоже могу создать очередь выполнения и пойти дальше выполнять другой код, пока "в сторонке" обрабатывается очередь.

Написано более трёх лет назад
hairygeek @hairygeek

Ivan Yakushenko, только вот для 239999 потоков у вас оперативной памяти не хватит. А async/await менее требователен к ресурсам

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

hairygeek, о ограничении максимального кол-ва процессов вы не слышали?

Написано более трёх лет назад
Anton Kuzmichev @Assargin

Ivan Yakushenko, у вас 99% времени работы кода - ожидание страницы, сетевое взаимодействие. Тут явно напрашивается асинхронщина. Которую, впрочем, никто не мешает совместить с multiprocessing и получить ещё больше профита. В любом случае, тут узким местом будет именно интернет-соединение, ваше ли, или сайт/хостинг решит, что вы его ддосите.

Написано более трёх лет назад
hairygeek @hairygeek

Ivan Yakushenko, слышал, конечно. А к чему здесь это?

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- 14 часов назад
- 84 просмотра
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- 15 часов назад
- 54 просмотра
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- вчера
- 173 просмотра
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- вчера
- 135 просмотров
2

ответа
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- вчера
- 156 просмотров
3

ответа
Python

Средний
Почему Низкий FPS анализ изображения yolov8 YOLO?
- 2 подписчика
- вчера
- 31 просмотр
0

ответов
Python

+2 ещё

Простой
Почему Планировщик задач Windows 10 не выполняет скрипт Python?
- 3 подписчика
- вчера
- 1771 просмотр
3

ответа
Python

+1 ещё

Средний
Как переместить мышь вместе с элементом в pyppeteer?
- 1 подписчик
- 21 апр.
- 90 просмотров
0

ответов
Python

+2 ещё

Простой
OK.RU, API приложений, не могу загрузить видео: User must grant an access to permission 'VIDEO_CONTENT'". Как получить этиправа для приложения?
- 1 подписчик
- 21 апр.
- 54 просмотра
1

ответ
Python

+1 ещё

Средний
Сервер C# не принимает сообщения от клиента. Почему так?
- 1 подписчик
- 21 апр.
- 126 просмотров
0

ответов
Показать ещё Загружается…

Python developer

Bell Integrator

До 350 000 ₽

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

TeamLead Python

AGIMA • Москва

До 350 000 ₽

Модель управления электродвигателем в Matlab, Simulink

24 апр. 2024, в 06:52

5000 руб./за проект

Анимация логотипа

24 апр. 2024, в 00:08

20000 руб./за проект

Разработка дизайна раздела «Статьи» на сайте «Мир отходов»

23 апр. 2024, в 23:01

10000 руб./за проект

Не используйте bs
continue???
Зачем вам для данной задачи питон впринципе?
Тут нужен curl grep + parallel
continue???

Ой, то я его убрать забыл, когда проверял запрос не написав еще блок else.

Answer 1 · 2019-06-20 20:00:12

много раз уже говорили что горизонтально масштабировать stateless обработчики это к очередям) RabbitMQ, например.
А если охота не париться то берете AWS SQS + AWS Lambda и получаете обработку всего этого за .... я думаю за пару минут справится) даже во freetier может уложиться

Answer 2 · 2019-06-20 20:55:47

Если у вас есть задача после, что-то делать с данными страницами, то используйте scrapy
Он умеет все что вам требуется

Если просто получить список - страница/код ответа, то parallel + curl