Python многопоточность Requests, что блокирует обработку?

Question

kikukuvota @kikukuvota

Python многопоточность Requests, что блокирует обработку?

Всем привет.
На питоне программирую недавно, в какой-то степени ещё разбираюсь.
Объясните, почему так происходит

Задача: Есть файл c урлами. Хочу обработать их (получить содержимое, или просто проверить статус/доступность).
Но все это ещё реализовал через потоки.
Так вот если домены сайтов существуют, то обработка происходит быстро, если встречается в файле домен, который недоступен/не существует, то обработка становится медленнее в несколько раз, такое ощущение, что потоки блокируются и как только ошибочный домен обрабатывается, опять, быстро, но если много ошибочных доменов, то время выполнения сильно увеличивается.

from threading import Thread
import threading
import subprocess
import requests
import time
import os

theardCount = 25

domain_file = "domains.txt"
domain_temp = "temp/"

def CheckRequest(host, step=0):

    fr_success = domain_temp+"/req-good-"+str(step)+".txt"
    fr_errors  = domain_temp+"/req-error-"+str(step)+".txt" 

    url = "http://"+host
    
    try:
        s = requests.Session()
        r = s.get(url)
        f = open(fr_success, "a+")
        f.write(host+'\n')
        f.close() 
    except Exception:
        f = open(fr_errors, "a+")
        f.write(host+'\n')
        f.close()   

    return 0

class GetDomainThread(Thread):
    def __init__(self, step):
        self.step = step
        self.body = None
        super(GetDomainThread, self).__init__()
    def run(self):
        step = self.step+1
        fdom  = open(domain_file, "r") 
        i=1
        f=step
        for line in fdom.readlines():
            if i==f:
                strLine = line.split("\n")
                domain = strLine[0]
                CheckRequest(domain, step)
                   
                f=f+theardCount
            i=i+1


# MAIN 

def main():

    start = time.time()

    threads = [GetDomainThread(i) for i in range(theardCount)]
	
    for thread in threads:
        thread.start()
	
    for thread in threads:
        thread.join()
    
           
    end = time.time()

    print end-start

if __name__ == '__main__':
    main()

Вопрос задан более трёх лет назад
8509 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Решения вопроса 1

3 комментария

kikukuvota @kikukuvota Автор вопроса

bzzzzzz огромное спасибо за код и разъяснения.
Но, протестировал его, 200 сайтов из них 83 битых => 230 секунд. И как только битые, то сразу чувствуется как падает скорость и вывод по ощущения в один поток. Сейчас попробую на другой ос, но сомневаюсь, что в этом дело.

Написано более трёх лет назад
kikukuvota @kikukuvota Автор вопроса

bzzzzzz не поверите, но на nix проверил 200 сайтов всего за 20 секунд. До этого запускал на винде.
Интересно, почему так? Какие-то внутренние блокировки (антивирус..) хотя странно.

Но рабочий код, в данный момент изучаю его.
Огромное спасибо.

Написано более трёх лет назад
bzzzzzz @bzzzzzz

Пожалуйста.

Реализация потоков в ОС с разной архитектурой может сильно различаться, плюс у вас могут стоять разные версии интерпретатора на разных системах.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

6 комментариев

kikukuvota @kikukuvota Автор вопроса

Я с Вами полностью согласен, хотел решить вопрос с блокировкой, потом уже переписать как можно меньше I\O операций. (сейчас это г.код) =)

Про GIL - интересно. Получается он блокирует параллельную работу потоков, только тогда, когда возможен конфликт между потоками.
В моем случае, блокирует когда домен не найден, только не могу понять, почему именно. какой конфликт там возникает.
Пока решения не нашел, пойду дальше изучать работу GIL.

За подсказку спасибо )

Написано более трёх лет назад
Станислав Фатеев @svfat

kikukuvota: предположу что в случае плохого домена все потоки ждут пока не произойдет Exception по таймауту, попробуйте настроить таймаут для requests в большую и меньшую сторону и сравнить результаты

Написано более трёх лет назад
kikukuvota @kikukuvota Автор вопроса

Станислав Фатеев пробовал выставлять таймаут 1 сек. и 60 сек, но разница буквально на секунд 7 между первым и втроым вариантом, т.е. не сильно значительно.
Читал, пробовал Py_BEGIN_ALLOW_THREADS, но ругается, что not defined.
Буду дальше копать )

Написано более трёх лет назад
Kir --- @SowingSadness

kikukuvota: могу предположить что блокировка происходит из-за доступа к общему ресурсу.
fdom = open(domain_file, "r")

Написано более трёх лет назад
kikukuvota @kikukuvota Автор вопроса

Kir --- сомневаюсь
пример: 200 доменов (рабочих) = время выполнения 17 секунд. без блокировок, все хорошо.
Если 50 из них несуществующие, то время выполнения составляет около 160 секунд.
Вот такие дела.
А считывание идет и там и там с общего файла => не из-за него. тут с requestom что-то. Пробовал использовать и другие средства HTTPConnect... тоже возникает блокировка.

Написано более трёх лет назад
lega @lega

GIL тут совсем ни причем, зависание из за сети, из за того что сервер не шлет данные.
Воркерам нужно давать задачи не поровну а по мере их освобождения воркеров, что-бы воркеры не простаивали, тогда общее время выполнения будет меньше.
Для подобных задачи, где много открытых коннектов, эффективно использовать асинхронные фреймворки, для py2.7 есть tornado, а вот пример www.py-my.ru/post/4f278211bbddbd0322000000

Написано более трёх лет назад

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Веб-разработка

Простой
Как обойти блокировку?
- 1 подписчик
- 4 часа назад
- 38 просмотров
1

ответ
Python

+1 ещё

Простой
Как получить экземпляр родителя из дочернего класса?
- 1 подписчик
- 6 часов назад
- 29 просмотров
0

ответов
Веб-разработка

Простой
На чём написать CMS?
- 1 подписчик
- 7 часов назад
- 124 просмотра
5

ответов
Python

Простой
Как указать когда нужна рекурсия а когда нет?
- 1 подписчик
- 8 часов назад
- 33 просмотра
1

ответ
Python

+1 ещё

Простой
Как сохранять сессию во Flask?
- 1 подписчик
- 13 часов назад
- 33 просмотра
0

ответов
Веб-разработка

Простой
Не будет ли проблем при использовании хостинга другой страны?
- 1 подписчик
- 15 часов назад
- 83 просмотра
2

ответа
Python

+1 ещё

Простой
Как реализовать Python-код, который будет распознавать речь, но будет реагировать только тогда, когда будет упомянуто определенное слово?
- 1 подписчик
- 16 часов назад
- 78 просмотров
2

ответа
Python

Простой
Как создать offline карту на python?
- 1 подписчик
- вчера
- 133 просмотра
2

ответа
Python

Простой
Какие модули есть в Python для целей анализа, форматирования, вывода текста?
- 2 подписчика
- вчера
- 218 просмотров
3

ответа
Веб-разработка

+1 ещё

Средний
Как сделано всплывающее окно с моим e-mail адресом Google, который я на этом сервере не оставлял?
- 1 подписчик
- вчера
- 131 просмотр
2

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Взлом автомобильной программы

19 апр. 2024, в 05:01

999999 руб./за проект

Доработать телеграм бота

19 апр. 2024, в 03:52

1000 руб./за проект

Написать код на python

19 апр. 2024, в 03:01

1000 руб./за проект

Answer 1 · 2015-07-02 14:19:19

Блокирует обработку в вашем случае не GIL, а то, как вы распределяете задачи между потоками: вы перед началом работы распределяете все урлы поровну между потоками и, поэтому, складывается такая ситуация, когда часть потоков простаивает и ждет когда один из них проверит все оставшиеся ему сайты. В своей программе вы должны использовать очереди для распределения задач и, конечно же, сократить количество I/O операций.

Код будет приблизительно таким (смотрите мои комментарии для того, чтобы понять что и почему):

# coding=utf-8
import requests
import time
import os
from threading import Thread, current_thread
from Queue import Queue


theard_count = 25


domain_file = "domains.txt"
domain_temp = "temp"


def check_url(host):
    url = 'http://' + host

    try:
        requests.get(url, timeout=5)
    except Exception:
        return False
    else:
        return True


def run(queue, result_queue):
    # Цикл продолжается пока очередь задач не станет пустой
    while not queue.empty():
        # получаем первую задачу из очереди
        host = queue.get_nowait()
        print '{} checking in thread {}'.format(host, current_thread())
        # проверяем URL
        status = check_url(host)
        # сохраняем результат для дальнейшей обработки
        result_queue.put_nowait((status, host))
        # сообщаем о выполнении полученной задачи
        queue.task_done()
        print '{} finished in thread {}. Result={}'.format(host, current_thread(), status)

    print '{} closing'.format(current_thread())


# MAIN
def main():
    start_time = time.time()

    # Для получения задач и выдачи результата используем очереди
    queue = Queue()
    result_queue = Queue()

    fr_success = os.path.join(domain_temp, "req-good.txt")
    fr_errors  = os.path.join(domain_temp, "req-error.txt")

    # Сначала загружаем все URL из файла в очередь задач
    with open(domain_file) as f:
        for line in f:
            queue.put(line.strip())

    # Затем запускаем необходимое количество потоков
    for i in range(theard_count):
        thread = Thread(target=run, args=(queue, result_queue))
        thread.daemon = True
        thread.start()

    # И ждем, когда задачи будут выполнены    
    queue.join()

    # После чего пишем результаты в файлы
    with open(fr_success, 'w') as fs, open(fr_errors, 'w') as fe:
        while not result_queue.empty():
            status, host = result_queue.get_nowait()

            if status:
                f = fs
            else:
                f = fe

            f.write(host)
            f.write('\n')

    print time.time() - start_time

if __name__ == '__main__':
    main()

500 сайтов, из которых 150 не работают, он парсит за 35 секунд.

Answer 2 · 2015-07-01 07:08:32

Так и есть - GIL блокирует поток.

А вообще, у вас код не очень эффективно написан, слишком много ненужных I\O операций, каждый раз файлы открывать - много времени теряется, как домен берете из файла для обработки, это вообще жесть. Попробуйте переписать так, что бы в тредах вообще файловых операций не было, работайте только с памятью.

Answer 3 · 2015-07-01 18:22:48

Если у вас версия питона >= 3.3, можете попробовать aiohttp и забыть про мороку с тредами в питоне.

import asyncio
import aiohttp

@asyncio.coroutine
def fetch_status(session, url):
    status = None
    try:
        response = yield from session.get(url)
        response.close()
        status = response.status
    except Exception as e:
        status = e.__str__()
    return status


def run():
    session = aiohttp.ClientSession()
    with open('domains.txt', mode='r') as f:
        for url in f:
            url = url.strip()
            status = yield from fetch_status(session, url)
            print(url, ": ", status, sep='')
    session.close()

if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(run())

Python многопоточность Requests, что блокирует обработку?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт