metallix
@metallix
Backend - developer

В чем причина постоянно умирающего SSD?

Приветствую!
Имеется машина -
Проц - Intel® Core™ i7-3770 Processor (8 MB Cache, 3.40 GHz)
Мать - Dell Optiplex 9010 0KV62T LGA 1155
RAM - Samsung DDR3 M378B5273DH0-CH9 x4
SSD - Kingston SSD SATA 2.5" 480GB TLC SA400S37/ 480GB
---
Спустя пару месяцев после первой установки ОСи (Ubuntu 18.04), начались короткие фризы системы. С ходом времени они стали чаще и прололжительней. В итоге всё закончилось ошибками типа - Read-Only file system. Как временное рещение помогала команда `fsck` + ребут системы, чуть позже можно было не загрузиться из-за того что grub не рабочий. В итоге решил не мучаться, и купить новый ссд. (UPD: Второй диск, точно такой же)
С новым ссд проблема начала повторяться опять спустя пару месяцев. Переустановки ОСи в обеих случаях помогала на 3-4 недели, и опять всё по новой. В чем проблема то может быть? Перелопатил кучу форумов, и вариантов решений. Всё бестолку. Может ли быть причина не в ссд, а в каком-то другом компоненте?
Ниже приложу результаты нескольких комманд
-----
fdisk -l

Disk /dev/sda: 447,1 GiB, 480103981056 bytes, 937703088 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disklabel type: dos
Disk identifier: 0xcf2bfa08

Device Boot Start End Sectors Size Id Type
/dev/sda1 * 2048 1050623 1048576 512M ef EFI (FAT-12/16/32)
/dev/sda2 1052670 937701375 936648706 446,6G 5 Extended
/dev/sda5 1052672 937701375 936648704 446,6G 83 Linux

smartctl -i /dev/sda5

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.0.0-29-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model: KINGSTON SA400S37480G
Serial Number: 50026B76826371CA
LU WWN Device Id: 5 0026b7 6826371ca
Firmware Version: SBFKB1C2
User Capacity: 480 103 981 056 bytes [480 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ACS-3 T13/2161-D revision 4
SATA Version is: SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Thu Sep 26 14:28:58 2019 EEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

smartctl -t short -a /dev/sda5

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.0.0-29-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model: KINGSTON SA400S37480G
Serial Number: 50026B76826371CA
LU WWN Device Id: 5 0026b7 6826371ca
Firmware Version: SBFKB1C2
User Capacity: 480 103 981 056 bytes [480 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ACS-3 T13/2161-D revision 4
SATA Version is: SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Thu Sep 26 14:30:06 2019 EEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (65535) seconds.
Offline data collection
capabilities: (0x11) SMART execute Offline immediate.
No Auto Offline data collection support.
Suspend Offline collection upon new
command.
No Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
No Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 30) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x0032 000 100 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 2537
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 237
148 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 0
149 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 0
167 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 0
168 Unknown_Attribute 0x0012 100 100 000 Old_age Always - 0
169 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 13
170 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 9
172 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0
173 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 3407935
181 Program_Fail_Cnt_Total 0x0032 100 100 000 Old_age Always - 0
182 Erase_Fail_Count_Total 0x0000 100 100 000 Old_age Offline - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0012 100 100 000 Old_age Always - 55
194 Temperature_Celsius 0x0022 075 062 000 Old_age Always - 25 (Min/Max 17/38)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
199 UDMA_CRC_Error_Count 0x0032 100 100 000 Old_age Always - 0
218 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0
231 Temperature_Celsius 0x0000 006 006 000 Old_age Offline - 94
233 Media_Wearout_Indicator 0x0032 100 100 000 Old_age Always - 13037
241 Total_LBAs_Written 0x0032 100 100 000 Old_age Always - 2911
242 Total_LBAs_Read 0x0032 100 100 000 Old_age Always - 1702
244 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 52
245 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 63
246 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 821280
246 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 821280

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 2174 -
# 2 Short offline Completed without error 00% 1575 -
# 3 Short offline Completed without error 00% 581 -
# 4 Short offline Aborted by host 00% 581 -
# 5 Extended offline Completed without error 00% 385 -
# 6 Short offline Completed without error 00% 102 -

Selective Self-tests/Logging not supported

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART Short self-test routine immediately in off-line mode".
Drive command "Execute SMART Short self-test routine immediately in off-line mode" successful.
Testing has begun.
Please wait 2 minutes for test to complete.
Test will complete after Thu Sep 26 14:32:06 2019
  • Вопрос задан
  • 1993 просмотра
Пригласить эксперта
Ответы на вопрос 9
@RickNRoll
В первую очередь нужно посмотреть на БП, так как если там присутствует какое-либо не соответствие по напряжению (либо сильные отклонения при нагрузке), то это напрямую может влиять на сам контроллер и продолжительность его работы. Обычно при работе жёстких дисков и SSD допустима норма отклонения в 5%, но иногда, в зависимости от БП, эти отклонения могут быть и больше (ввиду просадок или скачков напряжения).
В сети много статей на тему «допустимые отклонения по напряжению при работе жёсткого диска» (что также подходит и для SSD). Возможно стоит идти в данном направлении.
Ответ написан
SignFinder
@SignFinder
Wintel\Unix Engineer
1. SMART с диска нужно смотреть.
2. Какая файловая система стоит, поддерживаем ли она TRIM.
3. Как обстоят дела с журналом в файловой системе - он увеличивает нагрузку на SSD.
Ответ написан
semenenko88
@semenenko88
Системный администратор
Проверьте еще что в биосе включен режим ahci для sata.

Скорее всего у вас ext4, она TRIM поддерживает. А поддерживает ли диск можно узнать примерно так:
sudo hdparm -I /dev/sda | grep "TRIM"

Ну и если диск и файловая система поддерживают TRIM то можно включить в /etc/fstab опцию discard:
UUID=69006d4f-bdd7-4fb8-a4ff-fe3adbcc5c73 /  ext4    discard,errors=remount-ro 0       1


Возможно плохой кабель sata, а возможно гнездо sata на мат. плате. Возможно проблемы в блоке питания.
Ответ написан
@d22b
Можно ещё попробовать запустить `iostat 60` в терминале чтобы посмотреть, может там действительно большое количество записи в простое или от какого-то приложения. В S.M.A.R.T. непонятно со счётчиком записанного, если только Total_LBAs_Written в Гб (тогда получается 2911 против 1702 прочитанного).

Ещё где-то видел совет оставлять на SSD неразмеченное пространство не относящееся ни к какому разделу. Всегда так делаю и пока всё живо при сравнимом износе.
Ответ написан
grabbee
@grabbee
У меня проблема с матерью была. Поменяли целиком по гарантии. Очень похоже было, но он подвисал ещё во время старта железа на 1 минуту где-то и при выключении мог не выключиться(рандомно). Точно также и ридонли и груб не появлялся и систему не видел и фризы и переустанавливал. Сразу на диск подумал, но в сервисе сказали с диском всё ок. Я с ним сейчас уже больше года всё норм.
Ответ написан
YMax
@YMax
Системный администратор
Похожая ситуация под Windows 10 - SSD SanDisk начал отваливаться при старте системы. Обновление BIOS, замена БП не помогает, подозреваю, что дело в диске. Вообще - десктопные SSD в плане живучести могут преподносить сюрпризы - не так давно два SSD AData перестали определяться где бы то ни было без всяких предупреждений - просто пропали из системы и всё.
Ответ написан
ShturmN
@ShturmN
инженер
На убунтах был баг в пакете laptop-mode-tools. Он сильно часто тушил диск при простое. В итоге выходил из строя по параметру пуск/стоп хдд. И я не помню чтоб его фиксили. Решался он внятной настройкой конфига.
Ответ написан
adugin
@adugin
Покажите результат команды:
$ sudo free -h
Проблема может быть в размере swap-файла. У меня на ноуте с 8 Гб оперативки Ubuntu 18.04 при установке автоматически выставила его в размер 2 Гб, и я наблюдал регулярные фризы до 5 минут. После увеличения размера файла подкачки до 16 Гб всё стало работать нормально. Мануал тут.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы