Как аггрегировать данные с нескольких постгрессов?

Question

raiboon @raiboon

Как аггрегировать данные с нескольких постгрессов?

Есть десяток независимых постгресов, примерно с такой структурой таблиц:
На одном:
name | date | url | shows | clicks
alex | 21.04.2015 | 1 | 21 | 42
max | 21.04.2015 | 4 | 34 | 21
max | 22.04.2015 | 4 | 34 | 21

На другом:
name | date | url | shows | clicks
alex | 21.04.2015 | 1 | 1 | 1
max | 21.04.2015 | 4 | 1 | 1

shows и clicks на каждом сервере ежесекундно растут, добавляются записи с новыми name и url, ну тут ясно.
Как наиболее быстро и просто взять все данные с них сгруппировать и просуммировать? Что бы на так называемом мастерском постгресе в таблице схожей струтуры появилось:
name | date | url | shows | clicks
alex | 21.04.2015 | 2 | 22 | 43
max | 21.04.2015 | 8 | 35 | 22
max | 22.04.2015 | 4 | 34 | 21

Вообще сейчас это сделано питоно-скриптом который неспешно обходит по списку все постгресы, забирает данные за текущую дату, суммирует всё это, удаляет данные за последние сутки в мастер-базе и вставляет новые. И всё это крайне неспешно. И с каждым новым постгрессом это будет еще более неспешно.
А хотелось бы, если не реалтаймовой обработки, то минимальных задержек для пересчета. Когда была пара баз данных, всё было терпимо, а теперь, когда серверов больше десятка можно лечь поспать, пока всё сагрегируется.

Вопрос задан более трёх лет назад
464 просмотра

Комментировать

Подписаться 4 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 3

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Как исправить ошибку?
- 1 подписчик
- час назад
- 28 просмотров
1

ответ
Python

Простой
Что не так с кодом Python?
- 1 подписчик
- 13 часов назад
- 117 просмотров
1

ответ
Python

+1 ещё

Простой
Как локализовать label в декораторе button ui?
- 1 подписчик
- 14 часов назад
- 22 просмотра
1

ответ
Python

Простой
В функции four_squares программа выдает ошибку как только обращается, и почему не проходит тест с этим числом 106369249365575352836589875696130383747?
- 1 подписчик
- 16 часов назад
- 87 просмотров
2

ответа
Python

+1 ещё

Простой
Возможно ли соединить работающий java код и так же работающий скрипт python?
- 1 подписчик
- вчера
- 160 просмотров
3

ответа
Python

+2 ещё

Простой
Почему не работает callback в Телеграм боте?
- 1 подписчик
- вчера
- 78 просмотров
0

ответов
Python

+1 ещё

Простой
Как вывести конкретное значение из класса в python?
- 1 подписчик
- вчера
- 105 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как поправить язык в SQL Shell (psql)?
- 1 подписчик
- 14 апр.
- 80 просмотров
1

ответ
Python

Простой
Где на постоянке запустить python скрипт?
- 1 подписчик
- 13 апр.
- 169 просмотров
1

ответ
Python

+1 ещё

Простой
Как щелкнуть на show Full Screen video с помощью Selenium?
- 1 подписчик
- 13 апр.
- 38 просмотров
0

ответов
Показать ещё Загружается…

Python разработчик

Smart Seller

от 150 000 до 250 000 ₽

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Нужен кто сделает трафик в Тик Ток

16 апр. 2024, в 10:47

80000 руб./за проект

Сделать работу на R studio

16 апр. 2024, в 10:41

1000 руб./за проект

Написание проекта на микроконтроллер

16 апр. 2024, в 10:39

2000 руб./за проект

Answer 1 · 2015-04-14 19:36:56

Хочется и нужно - две большие разницы

А хотелось бы, если не реалтаймовой обработки, то задержки не больше часа и отсуствие линейной сложности от кол-ва постгрессов.

такое наврятли получится без всяких хадупов

Вот забавное решение
stackoverflow.com/a/3200176/1346222

truncate table tableA;

insert into tableA
select *
from dblink('dbname=postgres hostaddr=xxx.xxx.xxx.xxx dbname=mydb user=postgres',
            'select a,b from tableA')
       as t1(a text,b text);

можно еще с WAL файлами поиграться и репликациями

Ну и неплохо иметь схему сервиса в общих чертах

Answer 2 · 2015-04-14 23:16:54

На крайняк реализовать сервис на каком нибудь Erlang'e для которого параллельная работа делается очень легко и просто.

Answer 3 · 2015-04-16 11:03:15

В вашем случае наверно самым оптимальным будет параллельное вычерпывание сортированных данных (по одному проходу по каждому серверу и одной записи на каждую строку), если % пересечений высок.

А вообще почему не сделать шардинг?, сделать индекс (например) по 3-м полям и заливать данные в нужные сервера (типа всех alex на 1 сервер, max на 2-ой), что-б не было пересечений, таким образом данные мержить не нужно будет + экономия памяти.
Так же непонятно наличие мастер базы, вполне возможно её можно было избежать.

Как аггрегировать данные с нескольких постгрессов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт