Как обеспечивается согласованность данных между процессами в кластере Node.js?

Question

iDisconnect @iDisconnect

Как обеспечивается согласованность данных между процессами в кластере Node.js?

Господа, я новичок в мире традиционной разработки Web-бекэнда и Node.js в частности.

Обычно я разрабатываю ПО на C/C++, где мы часто имеем многопоточные приложения, в которых все объекты расположены в общей для всех потоков памяти (а для синхронизации доступа потоков к объектам используются примитивы, такие как mutex, spinlock).

Однако, кластер Node.js не многопоточный, а многопроцессовый - из-за этого у меня возникает масса теоретических вопросов. Господа, будьте добры рассказать каковы традиционные подходы при разработке ПО для кластера Node.js относительно обеспечения согласованности информации между процессами кластера? Что я должен учитывать разрабатывая бекэнд-приложение для кластера Node.js?

Например, у нас есть несколько процессов в кластере Node.js, каждый из процессов закешировал секретный код для аутентификации HTTP-запросов некоторого пользователя посредством cookies (выбрав этот код из БД). В какой-то момент один из процессов кластера решил обновить этот секретный код. Как новый секретный код должен попасть ко всем остальным процессам? Ведь когда следующие HTTP-запросы пользователя пойдут через другие процессы, то пользователь получит отказ в доступе.

Второй пример, у нас есть несколько процессов в кластере Node.js, который обслуживает онлайн-магазин одежды. По запросу пользователя один из процессов выбрал из БД список на 500 позиций одежды, подходящих под запрос пользователя. 100 позиций этот процесс отдал пользователю в качестве первой страницы ответа, остальные позиции он закешировал (чтобы не ходить в БД снова когда пользователь запросит следующие страницы). Но запросы пользователя на следующие страницы могут пойти через другие процессы, где нет этих закешированных данных - как же с этим быть? Дублировать ли закешированный список из 500 позиций на остальные процессы? Если да, то как? Или пользователь каким-то образом должен быть привязан исключительно к первому процессу? Если да, то как?

Кроме того, являются ли мои примеры корректными, практикуется ли описанное кеширование данных в бекэнд-приложениях на Node.js?

Вопрос задан более трёх лет назад
1960 просмотров

2 комментария

Подписаться 12 Оценить 2 комментария

Решения вопроса 1

2 комментария

iDisconnect @iDisconnect Автор вопроса

Philipp, большое спасибо за разъяснения.

Не могли бы Вы дополнительно ответить, если знаете:

1. Указанные подходы справедливы и для разработки на PHP или Ruby?

2. А подходы для разработки на C#/.NET для Windows Server сильно отличаются от указанных?

3. Если не сильно, то какие NoSQL-системы хранения данных чаще всего используют при разработки на C#/.NET для Windows Server?

Написано более трёх лет назад
Philipp @zoonman

iDisconnect: для PHP это все применимо и часто используется.
В Ruby несколько другой подход. Честно говоря про Ruby у меня сложилось странное впечатление. Я на низком уровне не сильно работал, но с Ruby on Rails успел познакомиться. С одной стороны все сделано для того, чтобы создавать корпоративные приложения, но с другой возможны проблемы с масштабированием.
Про C#/.NET ничего не могу сказать. Не работал с ними. Как пользователь часто вижу их "лежачими". Сама по себе архитектура Windows не очень приспособлена для построения высоконагруженных сетевых сервисов. Ну и обслуживание обойдется вам в копеечку. Плюс все закрытое, если где-то есть косяк в каком-нибудь сервисе, вы не можете тупо форкнуть это и поправить, особенно, если "горит". В том же мире PHP я периодически что-то переделываю или исправляю.
Про NoSQL советую вам сначала познакомиться с CAP-теоремой. Потом идите сюда https://db-engines.com/en/ranking и выбирайте по вкусу. NoSQL это не серебрянная пуля, а другой подход к видению структуры данных. Разумеется со своими недостатками, с которыми прийдется бороться. Лично я работал с MongoDB довольно долгое время и при должном подходе больших проблем с ней нет. Мой LinuxQuestions работает на ней и Node.js. На работе применяю на протяжении 4х лет. Да, проблемы бывают, но аналогичные возникают и с MySQL. Из практики, у меня ранее был проект, в котором в одну и туже таблицу часто писалось и из нее же часто читалось, так вот MySQL c InnoDB просто вешался на этой операции и тормозил (форк от Percona еще кое-как спасал). У меня есть абсолютно похожий компонент в текущем проекте на MongoDB и она работает молниеносно. Например каталог товаров достаточно легко реализуется на MongoDB. Плюс в последней версии они добавили фасетные операции.
А коннекторы к C#/.NET есть практически у любой современной NoSQL базы. У некоторых просто обычное REST API (тот же Solr).

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

7 комментариев

index0h @index0h

Нода сама разруливает сколько к нее будет процессов. В случае кластера вам ничто не мешает в воркера передать некие общие ресурсы.

Написано более трёх лет назад
iDisconnect @iDisconnect Автор вопроса

index0h, насколько я понимаю:
а) Во всём Вашем ответе только строка "В рамках кластера - кэширующие сервера, типа memcached, redis" релевантна моему вопросу.
б) Всё остальное относится к переменным внутри одного процесса.

Написано более трёх лет назад
dummyman @dummyman

Чего только стоит https://habrahabr.ru/post/280099/

Ну вы и вспомнили. Это было больше года назад. А я помню как вчера, сколько мата былона этот npm когда пытаешься задеплоить, установить свой же проект на сервере или еще где, и тут приходится самому с github качать каждый вручную.

Написано более трёх лет назад
dummyman @dummyman

index0h:
Нода сама разруливает сколько к нее будет процессов.

Вот это самое опасное что может случиться. Когда платформа, на которой запускают программы умнее автора.

Написано более трёх лет назад
index0h @index0h

dummyman
> Это было больше года назад.
Дык ничего ж не поменялось)) Абсолютная часть пакетов - трешак, и это считается вполне нормальным. Тот же пакет memcached если почитать - волосы шевелятся, в том числе и на голове.

> Вот это самое опасное что может случиться
Согласен, у вас есть возможность управлять в полной мере глобальным тиком? На ноде писал в последний раз пару лет назад, возможно сейчас что и поменялось.

Написано более трёх лет назад
dummyman @dummyman

Абсолютная часть пакетов - трешак

Тоже самое можно сказать о github. Больше всего там пустых репозиториев, или с какими-нибудь начальными данными. Это никому не мешает им пользоваться.

у вас есть возможность управлять в полной мере глобальным тиком?

Я не понимаю, что значит управлять в полной мере глобальным тиком

Написано более трёх лет назад
index0h @index0h

> Я не понимаю, что значит управлять в полной мере глобальным тиком

например вызвать следующий тик, а не подвязывать на него свой коллбэк.

Написано более трёх лет назад

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Node.js

+3 ещё

Средний
Как решить ошибку Nuxt 3: does not provide an export named execa?
- 1 подписчик
- вчера
- 35 просмотров
0

ответов
Node.js

Простой
По какому принципу декораторы работают в Node JS?
- 1 подписчик
- 21 апр.
- 67 просмотров
1

ответ
Node.js

+3 ещё

Простой
Как настроить WSS на apache, учитывая что https (REST api) работает?
- 1 подписчик
- 21 апр.
- 102 просмотра
1

ответ
Node.js

+1 ещё

Средний
Как авторизироваться в вк через node js?
- 1 подписчик
- 20 апр.
- 44 просмотра
0

ответов
JavaScript

+2 ещё

Средний
Проблемы с telegram bot, а именно с сообщениями, как исправить?
- 1 подписчик
- 17 апр.
- 93 просмотра
1

ответ
Node.js

+1 ещё

Простой
Error during build: RollupError: Could not resolve. Как исправить ошибку?
- 1 подписчик
- 15 апр.
- 36 просмотров
2

ответа
JavaScript

+4 ещё

Простой
Что делать, если после залива приложения на VPS страница остается недоступной?
- 1 подписчик
- 15 апр.
- 103 просмотра
2

ответа
JavaScript

+2 ещё

Простой
Как на стороне сервера узнать что клиент закрыл браузер?
- 1 подписчик
- 13 апр.
- 182 просмотра
2

ответа
Node.js

Простой
Почему coverage в vitest не видит нужную версию node и падает?
- 1 подписчик
- 13 апр.
- 53 просмотра
1

ответ
Node.js

+1 ещё

Средний
Как подключиться к trust wallet при помощи node js?
- 1 подписчик
- 11 апр.
- 69 просмотров
1

ответ
Показать ещё Загружается…

Node.js разработчик

ДАЛЕЕ • Москва

от 200 000 ₽

Senior Backend Developer Node.js

Radium Finance • Москва

от 300 000 до 400 000 ₽

Middle+ Node.js разработчик (удаленно)

Dropp Market • Москва

До 350 000 ₽

Составить единую таблицу SQL

26 апр. 2024, в 16:51

2000 руб./в час

Сверстать 2 транзакционных письма по макету figma

26 апр. 2024, в 16:36

3000 руб./за проект

Дорисовать в Figma каталог товаров

26 апр. 2024, в 16:26

3000 руб./за проект

Может ещё вот эта штука будет полезной: reactivex.io
А так, да: redis, rabbitmq и т.п.

Answer 1 · 2017-04-23 19:31:26

В кластерном Node.js вместо разделяемой памяти используется подход разделяемого хранилища данных.
Обычно эту роль выполняет Redis-кластер поскольку в нем есть механизмы уведомлений (подписок) и возможность асинхронного оповещения узлов кластера.
Такие вещи, как сессии и данные специфичные для клиента (кэши пользователя) хранятся вне Node.Js процесса, например в том же Redis. Это увеличивает инфраструктурные издержки, но позволяет производить бесшовные рестарты и пережить внезапные остановки машин в кластере.

Стандартной практикой является применение балансировщика, например того же nginx, включенного как reverse-proxy. Если вам не очень хочется разбираться с сессиями, используйте ip_hash, это снимет головную боль.

По поводу конкретных вопросов.

традиционные подходы при разработке ПО для кластера Node.js

Традиционный кластер представляет собой множество машин, на который запущено множество процессов через https://nodejs.org/api/cluster.html
Разумеется вместо разделямой памяти вы получаете разделямый сервис. Например с кэшем работаете как с базой и т.д. Почитайте о том, как работает горизонтальное масштабирование.

Что я должен учитывать разрабатывая бекэнд-приложение для кластера Node.js?

Учитывайте факт того, что это новая для вас область знаний. Вдобавок очень популярная и очень перегретая мнениями. Рассматривайте Node.js как некий клей между сервисами и другими решениями. Например ресайз картинок лучше делать на C++, поэтому расходы на создание процесса ресайзинга меньше расходов на ресайз реализованный на Node.js.

Как новый секретный код должен попасть ко всем остальным процессам?

Обычно такие проблемы решаются через провайдер конфигурации, например сервер конфигураций. Любая попытка изменить конфигурацию вызывает изменения во всем кластере. В модуле Cluster это реализуется через механизм уведомлений. В большом кластере такие вещи реализуются через подписки в Redis.

100 позиций этот процесс отдал пользователю в качестве первой страницы ответа, остальные позиции он закешировал

Смотрите про балансировщик и ip_hash. Но в целом подход довольно плохой. Запрашивайте только нужные 100 товаров. Если вытаскивание данных из базы является проблемой, меняйте базу или ее структуру. Масштабируйте хранилище. В крайнем случае используйте разделяемый кэш (Redis, memcached).

Кроме того, являются ли мои примеры корректными, практикуется ли описанное кеширование данных в бекэнд-приложениях на Node.js?

Считается плохой практикой. Кэширование конфигурации или данных используемых повсеместно (например локализация) - норма. Кэширование пользовательских данных легко приводит к утечкам, т.к. вы никогда не знаете, сколько пользователей может обратиться к вашему ресурсу в указанный период времени.

Answer 2 · 2017-04-23 10:29:12

Господа, будьте добры рассказать каковы традиционные подходы при разработке ПО для кластера Node.js относительно обеспечения согласованности информации между процессами кластера?

В рамках одного инстатса - собственно то же самое, что и на c++ - общая память. Создаем в некоем общем скопе сервис с данными, которые нужны для всех и используем.
В рамках кластера - кэширующие сервера, типа memcached, redis.

Что я должен учитывать разрабатывая бекэнд-приложение для кластера Node.js?

Несколько факторов:
- оно течет, и вы не раз будете вытирать капли крови из глаз, пытаясь понять где.
- качество существующих решений в большинстве случаев - невероятно низкое. Чего только стоит https://habrahabr.ru/post/280099/
- у вас будет много зависимостей хотите вы того, или нет.
- если вам не помогает событийная модель - Node.js вероятно не то, что вам надо.

Но запросы пользователя на следующие страницы могут пойти через другие процессы, где нет этих закешированных данных - как же с этим быть?

Кэшировать в скопе, доступном для каждого из ваших процессов.

Кроме того, являются ли мои примеры корректными, практикуется ли описанное кеширование данных в бекэнд-приложениях на Node.js?

По тому, как оно внутри работает - безусловно. Визуально же будет несколько по другому.

const http = require('http');

const hostname = '127.0.0.1';
const port = 3000;

const I_AM_CACHE = {
    "some": "data",
};

const server = http.createServer((req, res) => {
  res.statusCode = 200;
  res.setHeader('Content-Type', 'text/plain');
  res.end(JSON.stringify(I_AM_CACHE));
});

server.listen(port, hostname, () => {
  console.log(`Server running at http://${hostname}:${port}/`);
});

Answer 3 · 2017-04-23 17:35:42

Однако, кластер Node.js не многопоточный, а многопроцессовый - из-за этого у меня возникает масса теоретических вопросов. Господа, будьте добры рассказать каковы традиционные подходы при разработке ПО для кластера Node.js относительно обеспечения согласованности информации между процессами кластера? Что я должен учитывать разрабатывая бекэнд-приложение для кластера Node.js?

Все как в nix. Если вы знаете плюсы, то должны понять. Как передавать данные между процессами? Ну самое быстрое - безусловно, stdin/stdout, потом уже сокеты, базы данных особо не используют, в основном, только в случаях, что бы не допустить race conditions.

Если вы работали с плюсами, то с утечками памяти у вас проблем не будет. Просто подходите к модели потребления памяти так же как и в плюсах. Опять же, не меняйсте структуру класса, после создания объекта. - И все у вас будет.

Заметил тенденцию, текут нодовские скриптецы только у программистов PHP.

Что касается магазина одежды, я бы БД там не использовал. Как бы, хз, может мое личное субъективное мнение, но я бы сделал без БД. Ну это канеш смотря сколько сотрудников подключены к этому магазину. Если их там всего 4 менеджера и 1 директор, канеш БД - это просто лишний гемор. SQL куда менее поворотливый чем работа с массивами/объектами в js, за что как раз я его очень люблю.

Как обеспечивается согласованность данных между процессами в кластере Node.js?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт