Наилучшая архитектура для back-end коннектора к различным API?

Question

Олег Абражаев @seyfer

php

Наилучшая архитектура для back-end коннектора к различным API?

Добрый день.

На данный момент существует система, которая является коннектором к нескольким апи со сложной бизнес логикой в промежутке между получением запроса, отправкой в API и ответом.
Я хочу переписать эту систему для обеспечения более высокой производительности, отказоустойчивости и возможности масштабирования.
Выше перечисленное - это требования.

Теперь задача.
Есть несколько внешних клиентов для back-end коннектора. Клиенты могут отправлять запросы в определенном формате. От каких-то клиентов больше, от каких-то меньше, все приходят на один порт. Назовем запрос от клиента Port Request.

Далее система должна осуществлять предобработку запроса, логирование и по некой бизнес-логике параллелить запрос на несколько. Эти несколько новых запросов назовем Worker Request. В них содержаться уже данные для отправки в конкретный API и они должны выполняться параллельно либо асинхронно.

В это время головной процесс ждет ответа от каждого Worker Request.
По получению всех ответов (или ошибки по таймауту от каких-то API) головной процесс должен проводить пост обработку и сформировать из всех ответов Worker Request один ответ Port Request, залогировать его и отдать клиенту.

Так должен выполняться один цикл обработки одного запроса от клиента.

Запросов есть несколько типов и одни запросы могут быть зависимы от данных предыдущих запросов (т.е. например на одном из запросов на предпроцессинге надо выбрать данные из БД по ИД от предыдущего запроса). Следовательно логи запросов является так же рабочими единицами, которые должны храниться как минимум 30 дней.

-------

Ниже следует описание текущей системы.

Текущая система работает в точности как описано в ТЗ, но реализация не оптимальна. Используется php + mysql. Mysql играет роль как хранилища, так и очереди. Приходящий в контексте web сервера Port Request пишется в БД, далее бизнес логика генерирует Worker Request (N шт), они тоже пишутся в БД. Далее их подхватывает демон в консоли и параллелит через форки используя библиотеку Spork. При взятии из БД Worker делается выборка с блокировкой до обновления. Так же используется memcached для кеширования ответа каждого Worker.

Плюсы данного решения - логи в БД, т.е. можно посмотреть логи запросов.
Минусы данного решения в той же БД, я вижу, что масштабирование затруднительно, вся нагрузка ложиться на БД (много записи и чтения).

------

Суть этого в опроса в идеях и предложениях - как решить задачу наилучшим образом? Какие использовать подходы (очереди, форки, демоны) ? Какие инструменты (gearman, redis, библиотеки) ? Технологии (сейчас php, можно другие) ?

Сейчас я смотрю в сторону таких решений:

Логи запросов писать в Mongo. (Логи в бизнес логике являются так же рабочей единицей и по ИД Port Request или Worker Request берутся данные для работы.)
Очередь организовать через Gearman (или др). (тут не понятно не создаст ли это owerflow над текущим решением, т.к. логи все равно писать придется)
Не понятно как парралелить Worker, оставить так же форки или же сделать вторую очередь. Первая очередь - Port Request, вторая - Worker Request.

Вопрос задан более трёх лет назад
2659 просмотров

Комментировать

Подписаться 6 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 2

10 комментариев

Олег Абражаев @seyfer Автор вопроса

Тут не только в запись упираюсь, но в чтение. Эти самые логи являются как логами, так и рабочей единицей. Т.е. по ИД лога Port Request или Worker Request работает бизнес логика, берутся данные. Это должно быть понятно из описания.

Написано более трёх лет назад
Дмитрий Энтелис @DmitriyEntelis

Олег Абражаев: это не понятно из описания раз, представляется мне не правильным два.
В кортеже данных который приходит из очереди должна быть вся необходимая информация для работы.

Написано более трёх лет назад
Олег Абражаев @seyfer Автор вопроса

Дмитрий Энтелис: вы пожалуйста в задачу вникайте. Запрос имеет не один тип, всего типов несколько и они зависят друг от друга (у них есть последовательность, например бронирование, а потом выкуп).

Следовательно зависимые по очередности запросы берут данные из предыдущих (у нас есть один запрос - выдача вариантов бронирования, значит запрос на бронирование должен знать ИД, что выбрал пользователь, далее надо залезть в БД, чтобы взять данные с предыдущего запроса для подготовки текущего запроса).

Я не просто так написал про препроцессинг и постпроцессинг в ТЗ, это важно. Запросы могут быть связаны и данные о предыдущих запросах из БД могут быть нужны. Это и лог и рабочая единица, поторяюсь.

Чаще всего выборка по ИД, поэтому смотрю на Mongo.

Написано более трёх лет назад
Олег Абражаев @seyfer Автор вопроса

Дополнил ТЗ

Написано более трёх лет назад
Дмитрий Энтелис @DmitriyEntelis

Олег Абражаев: про последовательные запросы у вас как не было ни слова, так и нет.
мне кажется что если несколько запросов идут четко последовательно - то может быть вообще нет смысла их разделять? В вашем примере "бронь-выкуп" это в принципе одно действие с точки зрения внешней бизнес-логики.
Или вы сначала делаете пачку броней, потом смотрите какая выгодней, потом выкупаете какую-то одну?
На прошлом highload был интересный доклад от aviasales www.highload.ru/2013/abstracts/1232.html посмотрите, может быть Вам поможет.
У них сложный вариант, там как раз вопросы связанности и общения демонов обсуждаются.

PS ну и в любом случае монга тут будет делать сплошные тормоза. монга хорошо когда надо что то записать и потом когда нибудь посчитать какую нибудь статистику через mapreduce. У вас же будут равноправные потоки на запись/чтение. Это redis лучше. Если хочется потом аналитику можно как обработает задача - класть её в монгу на длительное хранение.

Написано более трёх лет назад
Олег Абражаев @seyfer Автор вопроса

Дмитрий Энтелис: понял ваше мнение на счет mongo.
А на счет запросов я по моему добавил и описал предельно ясно.
Четкой последовательности нет, выполняются они отдельно. Клиент может выкупить бронь и через неделю и через две.
Мы обсуждаем не изменение задачи, а решение для текущей поставленной задачи.

Написано более трёх лет назад
Дмитрий Энтелис @DmitriyEntelis

Олег Абражаев: а, т.е у вас это все еще и разорвано по времени...

Написано более трёх лет назад
Дмитрий Энтелис @DmitriyEntelis

Олег Абражаев: мне кажется у вас именно в логике архитектуры все как то перепутано.
Есть быстрые очереди когда надо что то раскидать по параллельным потокам, обработать, смержить, отдать наружу. Есть долгие истории когда бронирование выкупается через 2 недели.
Это принципиально разные вещи которые не стоит хранить в одном месте.

Написано более трёх лет назад
Олег Абражаев @seyfer Автор вопроса

Дмитрий Энтелис: в данном случае я вас понял, вы предлагаете долгосрочные запросы обрабатывать иначе (отдельно). Но одно из требований к системе - запросы должны выполняться единообразно. У них единый цикл прохода всех этапов. И хранить быстрые все равно придется, т.к. долгосрочные зависят от быстрых (данные).
Вопрос с тем, чтобы выделить быстрые очереди должен решаться масштабированием.

Написано более трёх лет назад
Олег Абражаев @seyfer Автор вопроса

Дмитрий Энтелис: в логике не перепутано, архитектура построена в итеративном процессе в соответствии с решаемой задачей. Вопрос только в оптимизации решения.

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

PHP

+1 ещё

Простой
Почему клиент телеграма отсылает битый запрос?
- 1 подписчик
- 2 часа назад
- 46 просмотров
0

ответов
PHP

+2 ещё

Простой
Как в Drupal 10 массово проставить noindex для >1000 страниц?
- 1 подписчик
- 2 часа назад
- 16 просмотров
0

ответов
JavaScript

+3 ещё

Простой
Как стилизовать пагинацию постов по определённому признаку?
- 1 подписчик
- 7 часов назад
- 49 просмотров
1

ответ
Проектирование программного обеспечения

Простой
На чём писать клиентское приложение с GUI?
- 3 подписчика
- 11 часов назад
- 1384 просмотра
6

ответов
PHP

+1 ещё

Простой
Парсинг XML yandex?
- 1 подписчик
- 14 часов назад
- 77 просмотров
0

ответов
PHP

Простой
Заполнить не существующими датами из бд в графике apexcharts?
- 1 подписчик
- 15 часов назад
- 54 просмотра
2

ответа
PHP

+1 ещё

Средний
Почему одинаково-написанный curl запрос отдает разные ответы?
- 1 подписчик
- вчера
- 131 просмотр
0

ответов
PHP

Простой
Вывожу куки в корзине, куда записал товар, не выводит, в чем ошибка?
- 1 подписчик
- вчера
- 78 просмотров
0

ответов
PHP

Простой
Функция str_replace() не работает?
- 1 подписчик
- вчера
- 175 просмотров
3

ответа
PHP

+1 ещё

Простой
Как получить данные title на TradingView?
- 1 подписчик
- вчера
- 30 просмотров
1

ответ
Показать ещё Загружается…

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

PHP-разработчик

M-Social Production • Брянск

от 70 000 ₽

PHP Developer

YCLIENTS • Москва

от 200 000 до 350 000 ₽

Настройка сервера

18 апр. 2024, в 21:56

2000 руб./за проект

Помощь с водпресс

18 апр. 2024, в 21:00

150 руб./за проект

Спарсить ссылки на все товары конкретного продавца в озон

18 апр. 2024, в 20:13

2000 руб./за проект

Answer 1 · 2014-11-10 08:33:32

1. Логи в mongo - я регулярно вижу пачки статей как в монго все хорошо - но на практике оно у меня легло на вставку при нагрузке ~500 больших json в секунду.
Это было года два назад, может что то допилили - но протестируйте этот момент сами).
Если Вы реально упираетесь в запись логов, я бы придумал какой то буфер в redis или даже mongo с периодической (раз в n минут) выгрузкой в классический sql.

2. Rabbitmq, redis, Gearman

3. По поводу || : я считаю что очереди это однозначно правильно.

Все imho)

Answer 2 · 2014-11-10 08:44:50

_ _ @AMar4enko

Логи запросов писать в Elasticsearch

Ответ написан более трёх лет назад

1 комментарий

Наилучшая архитектура для back-end коннектора к различным API?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт