gordon_shamway
@gordon_shamway

Многопоточный парсинг на python, как правильно реализовать?

Есть 500 txt файлов, в каждом файле лежит 1000 ссылок(через запятую). Все ссылки относятся к одному сайту.
Как правильно можно реализовать многопоточный парсинг по этим страницам хотябы в 10-20 потоков

Я придумал такой вариант, но незнаю он верный или нет?

# Примерный псевдокод
# Беру из папки первый txt файл
# Извлекаю из файла 10 ссылок
# Для каждой ссылки запускаю отдельный поток
# Сохраняю результат в бд
# Ожидаю завершение последнного потока
# Сон от 10 секунд до минуты
#Удаляю из файла эти 10 ссылок
# Беру следующие 10 ссылок
# и так далее

Это нормальный вариант или есть более лучше и верный подход?
И что лучше использовать multiprocessing или thread?
  • Вопрос задан
  • 400 просмотров
Решения вопроса 2
sim3x
@sim3x
scrapy
cat list*.txt | parallel --jobs 20 script.py
Ответ написан
longclaps
@longclaps
Лучше aiohttp
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы