Как правильно использовать модуль multiprocessing с PostgreSQL?

Question

beduin01 @beduin01

Как правильно использовать модуль multiprocessing с PostgreSQL?

В итоге под напором общественности решил отказаться от SQLite даже для хранения ссылок на файлы. Перенес все в PostgreSQL.

Добавление потоков в приложение толку не дало никакого. Как мне тут посоветовали я решил попробовать модуль multiprocessing чтобы разнести процессы по ядрам. Мой вод выглядит следующим образом:

def select_single_file_for_processing():
	#...
	sql = """UPDATE processing_files SET "isProcessing" = 'TRUE' WHERE "xml_name"='{0}'""".format(xml_name)
    cursor.execute(sql)
    conn.commit()  	

def worker():
    result = select_single_file_for_processing() # получаем файл для обработки    
    # ...
    # processing()

def main():
	# ....
    while unprocessed_xml_count != 0:

        checker_thread = threading.Thread(target=select_total_unpocessed_xml_count)
        checker_thread.start() # проверяем есть ли еще данные для обработки

        for i in range(10): # запускаем сами процессы
            t = Process(target=worker)
            t.start()

Прироста производительности я к сожалению никакого не увидел, наоборот вариант с процессами стал работать в несколько раз медленнее чем однопоточный вариант. В чем ошибка?

Как доступ к переменной: unprocessed_xml_count правильно организовать? А то у меня получается каждый процесс ее дергает и уверен она пишется не правильно

Я попробовал вообще очень тупорный вариант сделать. В БД у меня 1000 файлов. Без всяких синхронизаций сделал так:

for x in range(1000):
            for i in range(3):
                t = Process(target=worker)
                t.start()
                t.join()

Типа по три процесса стартовать. Но скорость тоже дико медленная стала.

Вопрос задан более трёх лет назад
155 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 2

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+2 ещё

Простой
Как выводить по несколько элементов с помощью пагинации aiogram3?
- 1 подписчик
- 46 минут назад
- 18 просмотров
0

ответов
Python

Простой
Как создать offline карту на python?
- 1 подписчик
- 10 часов назад
- 101 просмотр
2

ответа
Python

Простой
Какие модули есть в Python для целей анализа, форматирования, вывода текста?
- 2 подписчика
- 11 часов назад
- 109 просмотров
3

ответа
PostgreSQL

+1 ещё

Простой
Как исправить неправильное отображение данных в csv после экспорта?
- 1 подписчик
- 18 часов назад
- 72 просмотра
1

ответ
Python

+1 ещё

Простой
Отправка post на сервер Telegram, не правильный формат?
- 2 подписчика
- 19 часов назад
- 246 просмотров
0

ответов
Java

+3 ещё

Средний
Пытаюсь подключиться к postgresql 16 через docker-compose, использую spring-boot 3.2.4, что не так?
- 1 подписчик
- 20 часов назад
- 80 просмотров
3

ответа
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- вчера
- 117 просмотров
2

ответа
PostgreSQL

+2 ещё

Простой
Где искать рекомендуемые настройки SSL-аутентификации для Docker-образа Posgres?
- 1 подписчик
- вчера
- 51 просмотр
3

ответа
Python

+1 ещё

Простой
Почему не срабатывает клик по элементу при открытии станицы selenium python?
- 1 подписчик
- вчера
- 43 просмотра
1

ответ
Python

Простой
Выполнение парсинга странцы?
- 2 подписчика
- вчера
- 114 просмотров
3

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Разработать vr игры

18 апр. 2024, в 12:52

500000 руб./за проект

Требуется копирайтер-пересказчик манги

18 апр. 2024, в 12:48

6000 руб./за проект

Помочь решить ошибки ANR в UNITY игре

18 апр. 2024, в 12:41

3000 руб./за проект

Answer 1 · 2019-02-27 13:31:05

решил отказаться от SQLite даже для хранения ссылок на файлы

А зачем?
sqlite отличная самая распространённая в мире база (см. android, firefox, chrome - sqlite всюду)
Слабо себе представляю sqlite в масштабе террабайта, а в масштабе пары мегабайт postgresql будет явный overkill.

Ну а по теме - я не питонщик и по приведённому коду мне совершенно неясно что же вы делаете. Профилируйте своё приложение, ищите где теряете время.

Answer 2 · 2019-02-27 13:57:45

Каждый из процессов будет создавать подключение к БД. Создание подключения это относительно дорогая операция (из-за latency) и может занимать в этом случае больше, чем сами запросы. Также, создание нового процесса тоже дорогая операция. Но, честно говоря, без профилирования отвечать на данный вопрос — тыкать пальцем в небо.

Как правильно использовать модуль multiprocessing с PostgreSQL?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт