gremlintv2
@gremlintv2

Как периодически мониторить ошибки памяти (EDAC,ECC) в linux(существует ли комплексное решение для мониторинга здоровья сервера)?

Здравствуйте,
Столкнулся с очередной задачей по мониторингу:
Необходимо по крону раз в час отлавливать скриптом (ну или сервисом) ошибки памяти и репортить о них в алерт канал(почта, месенджеры итд итп)
Какие есть для этого решения?
Нашел эту статейку, но почему-то данный скрипт ругается на отсутсвие целочисельного значения.(может так и должно быть.)
В общем и целом ищу комплексное решение для мониторинга хардварной составляющей сервера для отправки в prometheus и мониторонга(частичного алертинга) через grafana, но пока почти все самописное:
  • температура(node_exporter).
  • HDD/SSD(smartmon-tools + скрипт)
  • NVME (nvme-cli + скрипт)
  • RAM (на очереди )) )

Спасибо

UPD: нашел скриптик для чека edac и системных сенсоров не проверял
еще один с использованием mcelog
  • Вопрос задан
  • 420 просмотров
Решения вопроса 1
VoidVolker
@VoidVolker
Dark side eye. А у нас печеньки! А у вас?
Пригласить эксперта
Ответы на вопрос 1
@zersh
Mcelog отлично подходит, через крон отправлять отчёт.

Второй вариант: если сервер имеет ipmi / bmc
Собирать инфу и здоровьи сервера. Например через ipmitool или snmp.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы