point212
@point212
сисадмин linux, программист php

Загадка тормозного FibreChannel NAS?

День добрый.

Решили мы в компании перейти на серьёзные рельсы, чтобы всё «как у взрослых». NAS, SAN, FibreChannel и Hyper-V. Закупили оборудование, собрали, поставили и… упёрлись в проблему.


Если кратко, то проблема в производительности дискового хранилища — она плавает и падает до очень низкой.


Если полно, то читайте далее:

Итак дано:

2 шт NAS IBM DS3512 укомплектованные 12ю дисками SAS 15k на 600Гб каждый, маркированными как IBM (в реале вроде бы произведены Seagate и предназначенными именно для этой модели NAS). Так же в каждый NAS установлено по две (2 шт) карты FibreChannel 8Gbit, на 4 порта каждая. В железяке 2 «головы», имеющих независимый доступ к дискам, и соответственно по карте FC на каждую.

2 шт SAN FibreChannel Switched Fabric IBM SAN24B-5 так же с портами на 8Gbit.

3 шт сервера IBM 3550 M4 7414-F2G. В каждый сервер установлено по FibreChannel карте производства Qlogic на 2 порта 8Gbit. Внутри тоже SAS винты.

Всё фирменное, совместимое, собранное по рекомендациям лучших собаководов и вендоров.


На NAS-ах из всех 12-и винтов собран RAID5 и презентован в SAN. На RAIDе создан 4Тб раздел (GPT, NTFS) и пара разделов поменьше.

На серверах сейчас стоит Windows 2012 Server (180-trial). Драйвера ко всем железкам самые свежие, с офф.сайта IBM.


Для простоты картины будем рассматривать один сервер, один switch, и один NAS. Всё остальное в эксперименте не учавствует.

Тест:

Берём объемный файлик, например 4-8Гб, лежащий на винте сервера. Средствами винды копируем его на раздел, который презентован с NAS-а и наблюдаем эффекты.

1) Первые 1-2-4 секунды копирование идёт со скоростью 300-800Мбайт/сек. Потом плавно или резко падает до 30-60Мбайт/сек и плавно снижается далее. Впрочем иногда успевает на полной скорости скопироваться весь файл.

2) До и после копирования возможно замирание, когда окошко копирования висит и не реагирует на мышь длительностью до 1-20 (иногда больше) секунд. Иногда этого замирания нет.

3) Во время копирования NAS интенсивно мигает лампочками винтов. Когда окошко копирования «висит» — индикаторы активности дисков на NAS не мигают и не горят

4) При попытке удалить свежескопированный на NAS файл, окошко удаления замирает на 20-50 секунд, затем только удаляет файл.

5) Пробовали копировать файл лежащий на NAS на него же, но в другую папку — проблемы аналогичные.

Дисклеймер или «мы уже пробовали»:

— Подключать сервер и NAS напрямую, минуя Switch.

— Оставлять подключенным к NASу один единственный сервер по одному единственному линку.

— Делать всё тоже самое с другим NAS-ом, и другим сервером.

— Ставить Windows Server 2008 R2.

— Делать раздел на хранилище меньшего объема — 500Гб (GPT).


Спецэффекты наблюдаются всё те же.


Что это может быть? Куда смотреть, куда копать?


P/S Простите за терминологию. Мог попутать термины для обозначения железяк, но в целом картина верна.
  • Вопрос задан
  • 6909 просмотров
Пригласить эксперта
Ответы на вопрос 6
piromanlynx
@piromanlynx
Системный администратор в Perfect Solutions
Похоже на то, что собственно момент тормоза — это и есть конец кеша на запись. Буфер запонился — началось прямое писание на диск.
P.S. не знаю как на Вашем железе и софте, у меня была такая проблема с Linux+ext4+iSCSI — именно окончание кеша на запись
Ответ написан
point212
@point212 Автор вопроса
сисадмин linux, программист php
Ну как сказать «неплохо». Должно быть офигенно.
Потому что на СХД должны лежать образы дисков виртуальных машин, для обеспечения миграции их между серверами.
Естественно эти образы будут постоянно изменяться, и естественно нужно обеспечить им приемлимую производительность.
Обычный железный винт обеспечивает скорость записи около 100мбайт/сек. В СХД же в рэйде5 суммарная скорость должна быть… не знаю точно… но явно не меньше 100мбайт/сек.

Конечно неправильно измерять все в Мб/сек, но к сожалению в IOPS'ах я плаваю.
Ответ написан
mark_ablov
@mark_ablov
С глубиной очереди в винде не игрались?
AFAIR у Qlogic'a она слишком низка по дефолту.
Ну и вообще в сторону *nix не смотрели хотя бы для тестов?
Ответ написан
@akurash
Вариант 1. По моим представлениям кэш на запись обычно бывает не включен (Enable Write Caching — No) в случае, если отсутствует резервирование кэш-памяти. Т.е. если у контроллера нет возможности сохранить содержимое кэша в случае пропадания внешнего электропитания. Насколько мне известно, в ходу сейчас две технологии резервирования кэша: с использованием резервной флеш-памяти (например, HP FBWC) и с использованием резервного источника питания для микросхем кэш-памяти контроллера (т.н. Battery Backup Unit, BBU). Поэтому я думаю, что есть смысл разобраться с вашим контроллером и при необходимости докупить к нему «батарейку» BBU. В любом случае включение кэша на запись станет большим плюсом к производительности.

Вариант 2. Недавно боролся с подобной проблемой. Виноват оказался не кэш, а антивирус, установленный на сервере (Symantec Endpoint Protection 11). Снос антивируса (с последующей заменой на другой) проблему решил полностью.
Ответ написан
amc
@amc
Первые 1-2-4 секунды копирование идёт со скоростью 300-800Мбайт/сек.

файл тупо в кеш идёт
Потом плавно или резко падает до 30-60Мбайт/сек и плавно снижается далее

кеш кончился, пишем на реальной скорости.

Для проверки:
переведите все адаптеры на 4Гбит, при необходимости до 2Гбит;
тестируйте без MPIO, полку напрямую в HBA;
вырубите кеш на полке;
для проверки создайте рейд-0 на все диски;
проверяйте, в таких условиях вы должны получать достаточную скорость и для потоковой записи, и для случайной.

И ещё, рейд-10 — это два (три, четыре) рейд-1 объединённых в рейд-0. На IBMовских полках он так и создаётся.

Так же не забудьте, что в каждой полке вам нужен, как минимум, один global spare диск, чтобы не потерять массив если замена будет ехать слишком долго.
Ответ написан
point212
@point212 Автор вопроса
сисадмин linux, программист php
В общем все это не приблизило нас к ответу. Скорость должна быть хорошая и без всяких там кэшей.
Официальный ответ от IBM — обновляйте прошивки всего, чего только можете. Только вот незадача — мы их и так уже везде обновили.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы