Corosync загрузил CPU на 100%, когда одна нода отвалилась. Как исправить?

Question

GR21 @GR21

Corosync загрузил CPU на 100%, когда одна нода отвалилась. Как исправить?

Доброго дня!

Первый мой опыт с Corosync+Pacemaker. До этого только heartbeat с установкой по мануалу.
Ставил связку pacemaker/corosync по https://habr.com/ru/company/postgrespro/blog/359230/ без PostgreSQL правда.

Так вот, связка CentOS 7 x 4 сервера в разных ДЦ. Между ними OpenVPN и сеть 172.16.172.0/24.
В штатном режиме проблем нет, повышенной нагрузки нет. Если запустить ребут сервера, то VirtualIP переключается отлично. Из ресурсов только используется VirtualIP и прозрачный проксик:

# pcs status
Cluster name: hacluster
Stack: corosync
Current DC: node2 (version 1.1.19-8.el7_6.4-c3c624ea3d) - partition with quorum
Last updated: Sat Jun 15 14:00:36 2019
Last change: Sat Jun 15 02:25:39 2019 by hacluster via crmd on platinum

4 nodes configured
1 resource configured

Online: [ node1 node2 node3 master ]

Full list of resources:

 virtualIP      (ocf::heartbeat:IPaddr2):       Started node1

Daemon Status:
  corosync: active/enabled
  pacemaker: active/enabled
  pcsd: active/enabled

Вчера из-за проблем с сетью в одном из ДЦ, одна нода вывалилась. Так нагрузка по CPU от corosync сразу же на каждой ноде взлетела до 100%, а кластер без одной вывалившейся ноды восстановить не получалось. Поднялся кластер только после того, как спустя 4 часа недоступная ранее нода вернулась в сеть.

Не помогало удаление ноды:

pcs cluster localnode remove node1

Подскажите, может чего упустил? Что-то нужно докрутить?

С Уважением,
Алексей.

Вопрос задан более трёх лет назад
211 просмотров

3 комментария

Подписаться 1 Простой 3 комментария

dimti @dimti

Удалось ли понять причину нагрузки от corosync?

Написано более трёх лет назад
GR21 @GR21 Автор вопроса

dimti, нет. Не удалось. Сейчас кластер работает на трёх нодах (одна вывалилась), и таких проблем уже не замечаю.

Вывалившаяся нода ни в какую не хотела возвращаться в строй. Грешу на провайдера и его АнтиДДОС. Но пока больше не вникал.

Аналогичная проблема? Сколько нод?

Написано более трёх лет назад
dimti @dimti

Одна нода, я не успел собрать кластер, так как оказалось что нельзя действующий сервер подрубить просто так в кластер, нужно его полностью вайпнуть и пока что одна нода - сам себе кластер.

Сегодня начались проблемы, то ли из-за копирования большого образа с сервака на сервак по scp (вообще это странноватая теория, так как деградация по скорости пошла сразу после начала копирования, и раньше копировалось все ок), то ли просто само по себе оно решило взбунтоваться. ЦП corosync потреблял 99.99% на одно ядро и деградировал хождение сетевых пакетов (60-70% потерь) и это причем происходило волнообразно, то все нормально, то опять минут 15 идут потери и так пока я его не вырубил systemctl stop corosync.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Linux

+1 ещё

Средний
Как настроить https у phpMyAdmin и mySQL в докер-контейнере?
- 1 подписчик
- 42 минуты назад
- 12 просмотров
0

ответов
Linux

+3 ещё

Простой
Как решить проблемы с клавиатурой в файловом менеджере far2l в Ubuntu 24.04 в сеансе Wayland?
- 1 подписчик
- 5 часов назад
- 64 просмотра
1

ответ
Linux

+1 ещё

Простой
BigBlueButton ошибка подключения по 443 порту?
- 1 подписчик
- 9 часов назад
- 159 просмотров
1

ответ
Linux

+2 ещё

Простой
Linphone, sip keepalife или что?
- 2 подписчика
- 10 часов назад
- 127 просмотров
1

ответ
Linux

+2 ещё

Средний
Почему не получается произвести аутентификацию нод?
- 1 подписчик
- вчера
- 67 просмотров
0

ответов
Linux

+1 ещё

Простой
Как сделать так, чтобы программы не закрывались при входе системы в режим ожидания?
- 1 подписчик
- вчера
- 69 просмотров
0

ответов
Linux

+1 ещё

Простой
Что за файлы и как с ними жить дальше?
- 3 подписчика
- вчера
- 1136 просмотров
1

ответ
Linux

+2 ещё

Простой
Почему в centos lvm не видит pv на shared iscsi lun?
- 2 подписчика
- вчера
- 67 просмотров
1

ответ
Linux

+2 ещё

Простой
Как правильно настроить SSH и RDP через reverse ssh через третий хост?
- 1 подписчик
- вчера
- 84 просмотра
0

ответов
Linux

+2 ещё

Простой
Как создать ICQ сервер?
- 1 подписчик
- 24 апр.
- 311 просмотров
2

ответа
Показать ещё Загружается…

Программист C для Embedded Linux

Radiofid • Санкт-Петербург

от 120 000 до 180 000 ₽

Linux Администратор DevOps

ИМАГ • Москва

от 150 000 до 170 000 ₽

Программист C/C++ embedded Linux

РТК Автоматика • Москва

от 170 000 до 250 000 ₽

Необходимо сверстать приложение согласно макету Figma используя React

26 апр. 2024, в 22:22

1500 руб./за проект

Написать модуль подключения матрицы Sony к ПЛИС (Verilog)

26 апр. 2024, в 21:30

15000 руб./за проект

8266 f12 требуется сделать ревью и оптимизировать работу

26 апр. 2024, в 20:42

2000 руб./за проект

Удалось ли понять причину нагрузки от corosync?
dimti, нет. Не удалось. Сейчас кластер работает на трёх нодах (одна вывалилась), и таких проблем уже не замечаю.

Вывалившаяся нода ни в какую не хотела возвращаться в строй. Грешу на провайдера и его АнтиДДОС. Но пока больше не вникал.

Аналогичная проблема? Сколько нод?
Одна нода, я не успел собрать кластер, так как оказалось что нельзя действующий сервер подрубить просто так в кластер, нужно его полностью вайпнуть и пока что одна нода - сам себе кластер.

Сегодня начались проблемы, то ли из-за копирования большого образа с сервака на сервак по scp (вообще это странноватая теория, так как деградация по скорости пошла сразу после начала копирования, и раньше копировалось все ок), то ли просто само по себе оно решило взбунтоваться. ЦП corosync потреблял 99.99% на одно ядро и деградировал хождение сетевых пакетов (60-70% потерь) и это причем происходило волнообразно, то все нормально, то опять минут 15 идут потери и так пока я его не вырубил systemctl stop corosync.

Corosync загрузил CPU на 100%, когда одна нода отвалилась. Как исправить?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт