Как диагностировать зависание php-fpm процессов?

Question

Сергей Соколов @sergiks

♬♬

Как диагностировать зависание php-fpm процессов?

На VPS стоит Ubuntu 18, nginx, mysql, redis, php7.2-fpm крутится веб-приложение на Laravel. Давно и нормально.
Вдруг сегодня процессы php-fpm выпали в статус "D" (uninterruptible sleep (usually IO)) и по kill -9 не убиваются.
Варианты либо ждать не понятно, чего. Либо reboot.

Первый раз sudo systemctl reboot перезагрузил сервер.
Второй раз не смог за несколько минут. Пришлось через панель хостинга Power cycle запускать.

Три раза уже возникала такая ситуация, требующая reboot сегодня. Никогда такого не было, и вот опять.

В похожем вопросе на SO выяснили, что у них причиной был исполняемый код, связанные с обновлением кэша, параллельно запускавшийся во всех инстансах php-fpm.

В логах не нашёл ничего подозрительного-необычного перед очередными зависаниями. Приложением активно пользуются, по несколько запросов в секунду бывает, но всё как всегда.

Смотрел логи nginx, php-fpm и Laravel-приложения.

php-fpm, по мере выпадения в осадок воркеров, запускал новые, пока не упирался в лимит:

[12-Oct-2019 14:26:07] WARNING: [pool www] server reached pm.max_children setting (8), consider raising it

nginx перед проблемой или уже в её результате начинал сообщать про timeout:

[error] 1053#1053: *13891 upstream timed out (110: Connection timed out) while reading response header from upstream

dmesg пишет про непонятный jbd2/sda-8 и сразу за этим тоже про php-fpm:

484.254707] INFO: task jbd2/sda-8:1540 blocked for more than 120 seconds.
[  484.262192]       Not tainted 4.15.0-65-generic #74-Ubuntu
[  484.272558] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[  484.280122] jbd2/sda-8      D    0  1540      2 0x80000000
...
[  484.280256] INFO: task php-fpm7.2:1584 blocked for more than 120 seconds.
[  484.286958]       Not tainted 4.15.0-65-generic #74-Ubuntu
[  484.292249] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[  484.305238] php-fpm7.2      D    0  1584    858 0x00000000

VPS (droplet) на DigitalOcean, к ней подключён block storage Volume – как dev/sda. Первая запись в dmesg про него? Из-за этого подключенного volume происходит затык? Как можно его try-catch?

Что смотреть, как понять причину возникновения ситуации?

Upd. техподдержка ответила, что проблема была в физическом оборудовании сервера, где находился инстанс. Они всё починили, проблема исчезла. Заодно перенесли дроплет на другое физ. оборудование на всякий случай. Вопрос снят. Очень хороший ответ Роман Мирр помог разобраться, спасибо!

Вопрос задан более трёх лет назад
1011 просмотров

Комментировать

Подписаться 3 Средний Комментировать

Решения вопроса 1

3 комментария

Сергей Соколов @sergiks Автор вопроса, куратор тега PHP

Спасибо большое! Похоже, действительно, проблема в I/O этого подключённого Volume.
DO пишут, что их этот block storage подходит и для хранения файлов БД. Я там держу небольшие файлы с данными, которые периодически обновляю/читаю.
По данным atop, дисковая активность jbd2/sda-8 достигает и 29%, а основного процесса php, который обновляет данные, и 56%.
Видимо, это много. Буду думать как оптимизировать этот bottleneck.

Написано более трёх лет назад
Everything_is_not_so_bad @2ord

Сергей Соколов, strace в помощь.

Написано более трёх лет назад
Сергей Соколов @sergiks Автор вопроса, куратор тега PHP

Upd. провайдеры написали, что проблема была в физическом оборудовании сервера, где находился инстанс:
Sorry to hear about the issues experienced here. Reviewing things, I do see that there was an issue on the physical host for your machine, which our Cloud Operations team was able to resolve. This could have led to decreased performance, as well as issues with event processing, such as powering off and on. If you would prefer, I am happy to live migrate your Droplet to an alternate physical host, I would just need your confirmation, and your desired time/timezone if you have a preference there.

Block storage is suitable for storing files that are updated frequently - have you faced any previous issues with Volume performance?

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Linux

+1 ещё

Простой
Что делать, если пишет «error: unknown filesystem Enering rescue mode... grub rescue>»?
- 1 подписчик
- 6 часов назад
- 48 просмотров
1

ответ
Linux

+3 ещё

Простой
Как вернуть обратно gnome 44 в Kali linux?
- 1 подписчик
- 7 часов назад
- 34 просмотра
0

ответов
PHP

+1 ещё

Простой
Почему клиент телеграма отсылает битый запрос?
- 1 подписчик
- 7 часов назад
- 55 просмотров
0

ответов
PHP

+2 ещё

Простой
Как в Drupal 10 массово проставить noindex для >1000 страниц?
- 1 подписчик
- 8 часов назад
- 21 просмотр
0

ответов
Linux

+1 ещё

Средний
Astra Linux — как избавиться от шума в HDD?
- 2 подписчика
- 11 часов назад
- 141 просмотр
3

ответа
JavaScript

+3 ещё

Простой
Как стилизовать пагинацию постов по определённому признаку?
- 1 подписчик
- 13 часов назад
- 52 просмотра
1

ответ
Linux

+2 ещё

Простой
Что выбрать для проекта Windows Embedded или Linux?
- 1 подписчик
- 16 часов назад
- 130 просмотров
4

ответа
Linux

+1 ещё

Средний
Как переименовать файлы и папки с одинаковым именем, но разным регистром?
- 1 подписчик
- 18 часов назад
- 88 просмотров
0

ответов
PHP

+1 ещё

Простой
Парсинг XML yandex?
- 1 подписчик
- 20 часов назад
- 81 просмотр
0

ответов
PHP

Простой
Заполнить не существующими датами из бд в графике apexcharts?
- 1 подписчик
- 21 час назад
- 56 просмотров
2

ответа
Показать ещё Загружается…

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

PHP-разработчик

M-Social Production • Брянск

от 70 000 ₽

PHP Developer

YCLIENTS • Москва

от 200 000 до 350 000 ₽

Взлом автомобильной программы

19 апр. 2024, в 05:01

999999 руб./за проект

Доработать телеграм бота

19 апр. 2024, в 03:52

1000 руб./за проект

Написать код на python

19 апр. 2024, в 03:01

1000 руб./за проект

Answer 1 · 2019-10-12 22:23:22

jbd2 это подсистема, работающая с ext4.
Похоже что высокая активность I/O.
Чтобы узнать подробнее, нужно иметь историю событий. Программа atop умеет вести учет процессов и ресурсов, позволяя позже проиграть историю, выяснив причину проблемы.
https://haydenjames.io/use-atop-linux-server-perfo...
https://haydenjames.io/linux-server-performance-di...

Как диагностировать зависание php-fpm процессов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт