1 Востаннє редагувалося HetmanNet (28.07.2015 15:41:49)

Тема: [SSD] Автоматичний апгрейд з 120 GB до 600 PB

Є машина з двома SSD в RAID1. SSD однакові, це OCZ VECTOR150. Машина працює в режимі 24/7, з яких 2/3 чекає дива.
Так ось час від часу один з двох SSD забиває болт, точніше вони це роблять по черзі.  *WALL* Кожний з них приблизно раз на місяць.
Кожного разу на швидку чаклую, але сьогодні випадково потрапило в очі цікавий факт коли вирішив smartctl почитати, то SSD коли SSD забиває болт: різко змінює свою ємність (User Capacity) з 120 GB до 600 PB та логічні блоки (Logical block size) теж зростають з 512 байт до ~738 мегабайт. Халявний приріст об'єму на рівному місці *HI* ! Правда smartctl крім цієї життєрадісної новини нічого не каже, мабуть щоб не засмучувати юзера.

[root@localhost ~]# smartctl --all /dev/sdb
smartctl 6.2 2014-07-16 r3952 [x86_64-linux-4.0.7-200.fc21.x86_64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               /1:0:0:0
Product:              
User Capacity:        600 332 565 813 390 450 bytes [600 PB]
Logical block size:   774843950 bytes
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Для порівняння те саме для другого SSD, який продовжує працювати:

[root@localhost ~]# smartctl --all /dev/sda
smartctl 6.2 2014-07-16 r3952 [x86_64-linux-4.0.7-200.fc21.x86_64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     OCZ-VECTOR150
Serial Number:    OCZ-06W25E2BIR9O4Q4M
LU WWN Device Id: 5 e83a97 83713a310
Firmware Version: 1.2
User Capacity:    120 034 123 776 bytes [120 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Tue Jul 28 15:40:16 2015 EEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (    0) seconds.
Offline data collection
capabilities:                    (0x1d) SMART execute Offline immediate.
                                        No Auto Offline data collection support.
                                        Abort Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        No Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x00) Error logging NOT supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   0) minutes.
Extended self-test routine
recommended polling time:        (   0) minutes.

SMART Attributes Data Structure revision number: 18
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0000   015   015   000    Old_age   Offline      -       15
  9 Power_On_Hours          0x0000   100   100   000    Old_age   Offline      -       7107
 12 Power_Cycle_Count       0x0000   100   100   000    Old_age   Offline      -       140
171 Unknown_Attribute       0x0000   080   080   000    Old_age   Offline      -       40301648
174 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       45
195 Hardware_ECC_Recovered  0x0000   100   100   000    Old_age   Offline      -       0
196 Reallocated_Event_Count 0x0000   100   100   000    Old_age   Offline      -       15
197 Current_Pending_Sector  0x0000   100   100   000    Old_age   Offline      -       0
208 Unknown_SSD_Attribute   0x0000   100   100   000    Old_age   Offline      -       98
210 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       0
224 Unknown_SSD_Attribute   0x0000   100   100   000    Old_age   Offline      -       1
233 Media_Wearout_Indicator 0x0000   097   097   000    Old_age   Offline      -       97
241 Total_LBAs_Written      0x0000   100   100   000    Old_age   Offline      -       1947
242 Total_LBAs_Read         0x0000   100   100   000    Old_age   Offline      -       1197
249 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       135124158

Warning! SMART ATA Error Log Structure error: invalid SMART checksum.
SMART Error Log Version: 1
No Errors Logged

Warning! SMART Self-Test Log Structure error: invalid SMART checksum.
SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


Selective Self-tests/Logging not supported

А тепер серйозно, хто знає яка байда з цими SSD відбувається? Як з'ясувати? Бо реально трохи задовбали.

2

Re: [SSD] Автоматичний апгрейд з 120 GB до 600 PB

Єдине що спадає на думку: а може це щось пов'язане з відмиранням частин цього SSD та відповідною реорганізацією/дефрагментацією. Це ж все таки SSD, але з іншого боку... раз на місяць - це досить часто. Можливо вони по повній використовуються, тобто операції запис-видалення часто відбувається? Частіше такі диски ставлять для ОС, щоб менше було таких операцій.

3 Востаннє редагувалося HetmanNet (29.07.2015 08:13:38)

Re: [SSD] Автоматичний апгрейд з 120 GB до 600 PB

ktretyak написав:

Єдине що спадає на думку: а може це щось пов'язане з відмиранням частин цього SSD та відповідною реорганізацією/дефрагментацією. Це ж все таки SSD, але з іншого боку... раз на місяць - це досить часто. Можливо вони по повній використовуються, тобто операції запис-видалення часто відбувається? Частіше такі диски ставлять для ОС, щоб менше було таких операцій.

На цих дисках дві речі: ОС з усім софтом та файли даних бази даних. Решта даних на HDD.
Ну запис та читання відбуваються регулярно, бо там база даних з даними про юзерів. Фактично за для того щоб база даних максимально швидко працювала та починала роботу і були придбані SSD.

4

Re: [SSD] Автоматичний апгрейд з 120 GB до 600 PB

Ви спеціально заради експерименту зробіть заміри об'єму цих дисків до та після збоїв.

SSD цим же і хворіють, у них ресурс циклів перезапису незрівнянно менший, ніж у HDD.

Якщо після кожного такого збою, об'єм дисків потроху зменшується, то відмирання фрагментів диску - і є причиною збоїв.

5

Re: [SSD] Автоматичний апгрейд з 120 GB до 600 PB

ktretyak написав:

Ви спеціально заради експерименту зробіть заміри об'єму цих дисків до та після збоїв.

SSD цим же і хворіють, у них ресурс циклів перезапису незрівнянно менший, ніж у HDD.

Якщо після кожного такого збою, об'єм дисків потроху зменшується, то відмирання фрагментів диску - і є причиною збоїв.

Кумедно, якщо вони мруть.. бо одному SSD скоро буде рік, а другому лиш місяць. :D

P.S. Весь час забуваю написати статтю проте як перевести Fedora на програмний RAID коли у тебе LVM використовується та ОС на ньому стоїть. При цьому я можу відключити будь-який диск та перезавантажити машину без проблем, тобто завантаження ОС працює з будь-якого диску.

6 Востаннє редагувалося HetmanNet (03.08.2015 08:38:45)

Re: [SSD] Автоматичний апгрейд з 120 GB до 600 PB

Знову "випав" SSD з RAID.  *FACEPALM*
Цього разу з помилкою:

udisksd: Error performing housekeeping for drive /org/freedesktop/UDisks2/drives/OCZ_VECTOR150_A21WL061424000055: Error updating SMART data: Error sending ATA command CHECK POWER MODE: Unexpected sense data returned: 0000: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 0010: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ (g-io-error-quark, 0)

Минулі два рази "випадали" з помилкою:

udisksd: Error performing housekeeping for drive /org/freedesktop/UDisks2/drives/OCZ_VECTOR150_A21WL061424000055: Error updating SMART data: sk_disk_check_sleep_mode: Operation not supported (udisks-error-quark, 0)

Та знову ємність до 600PB зросла.  *HI* Хто знає, як дізнатися що з цією заразою не так?

P.S. Датчика температури в цих заразах (SSD) немає. Ну HDD показують 34 та 35, тож по ідеї температура цих заразах має бути не набагато вищою, якщо не меншою (ближчі до кулера).
P.P.S. Висмикнув data та power кабелі з SSD, що випав, вставив та заново до RAID масиву додав. Тепер працює. *DONT_KNOW*

7

Re: [SSD] Автоматичний апгрейд з 120 GB до 600 PB

У мене на минулій роботі на одному серваку раз в кілька місяців відвалювався один диск. Я поставив цей диск на сусідній сервак з майже ідентичним залізом але іншим контролером RAID. А звідти забрав один диск на проблемний сервер. В результаті на проблемному серваку один диск як відвалювався, так і відвалюється. А на другому усе ОК. Тобто проблеми були з самим контролером рейду.

8

Re: [SSD] Автоматичний апгрейд з 120 GB до 600 PB

Torbins написав:

У мене на минулій роботі на одному серваку раз в кілька місяців відвалювався один диск. Я поставив цей диск на сусідній сервак з майже ідентичним залізом але іншим контролером RAID. А звідти забрав один диск на проблемний сервер. В результаті на проблемному серваку один диск як відвалювався, так і відвалюється. А на другому усе ОК. Тобто проблеми були з самим контролером рейду.

В даному випадку RAID масив є програмним, тож на контролер не спишеш.

9 Востаннє редагувалося HetmanNet (17.08.2015 09:31:08)

Re: [SSD] Автоматичний апгрейд з 120 GB до 600 PB

Ось спробував з dmesg вийняти сьогодні інформацію пов'язану зі зникненням під час роботи SSD, можливо є щось зайве.

[24458.040015] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[24458.040085] ata3.00: failed command: FLUSH CACHE
[24458.040130] ata3.00: cmd e7/00:00:00:00:00/00:00:00:00:00/a0 tag 3
         res 40/00:01:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)                                                                                                  
[24458.040238] ata3.00: status: { DRDY }
[24458.040273] ata3: hard resetting link
[24463.396128] ata3: link is slow to respond, please be patient (ready=0)
[24468.090086] ata3: COMRESET failed (errno=-16)
[24468.090138] ata3: hard resetting link
[24473.446296] ata3: link is slow to respond, please be patient (ready=0)
[24478.140206] ata3: COMRESET failed (errno=-16)
[24478.140257] ata3: hard resetting link
[24483.496417] ata3: link is slow to respond, please be patient (ready=0)
[24513.190675] ata3: COMRESET failed (errno=-16)
[24513.190721] ata3: limiting SATA link speed to 3.0 Gbps
[24513.190725] ata3: hard resetting link
[24518.240752] ata3: COMRESET failed (errno=-16)
[24518.240798] ata3: reset failed, giving up
[24518.240834] ata3.00: disabled
[24518.240839] ata3.00: device reported invalid CHS sector 0
[24518.240852] ata3: EH complete
[24518.240877] blk_update_request: I/O error, dev sdb, sector 1026064
[24518.240930] md: super_written gets error=-5, uptodate=0
[24518.240935] md/raid1:md2: Disk failure on sdb2, disabling device.
md/raid1:md2: Operation continuing on 1 devices.
[24518.241056] blk_update_request: I/O error, dev sdb, sector 1026064
[24518.241107] md: super_written gets error=-5, uptodate=0
[24518.241111] blk_update_request: I/O error, dev sdb, sector 1026064
[24518.241161] md: super_written gets error=-5, uptodate=0
[24518.254000] RAID1 conf printout:
[24518.254006]  --- wd:1 rd:2
[24518.254011]  disk 0, wo:0, o:1, dev:sda2
[24518.254014]  disk 1, wo:1, o:0, dev:sdb2
[24518.261801] RAID1 conf printout:
[24518.261807]  --- wd:1 rd:2
[24518.261811]  disk 0, wo:0, o:1, dev:sda2
[41505.058183] sd 2:0:0:0: [sdb] tag#22 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[41505.058186] sd 2:0:0:0: [sdb] tag#22 CDB: Read(10) 28 00 00 08 0a 62 00 00 02 00
[41505.058187] blk_update_request: I/O error, dev sdb, sector 526946
[41505.058203] md/raid1:md1: sdb1: rescheduling sector 524354
[41505.058644] sd 2:0:0:0: [sdb] tag#23 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[41505.058646] sd 2:0:0:0: [sdb] tag#23 CDB: Read(10) 28 00 00 08 0a 62 00 00 02 00
[41505.058647] blk_update_request: I/O error, dev sdb, sector 526946
[41505.058715] sd 2:0:0:0: [sdb] tag#24 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[41505.058717] sd 2:0:0:0: [sdb] tag#24 CDB: Write(10) 2a 00 00 08 0a 62 00 00 02 00
[41505.058718] blk_update_request: I/O error, dev sdb, sector 526946
[41505.058744] sd 2:0:0:0: [sdb] tag#25 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[41505.058745] sd 2:0:0:0: [sdb] tag#25 CDB: Read(10) 28 00 00 08 0a 62 00 00 02 00
[41505.058746] blk_update_request: I/O error, dev sdb, sector 526946
[41505.058763] md/raid1:md1: redirecting sector 524354 to other mirror: sda1
[41505.058788] blk_update_request: I/O error, dev sdb, sector 2056
[41505.058800] md: super_written gets error=-5, uptodate=0
[41505.058801] md/raid1:md1: Disk failure on sdb1, disabling device.
md/raid1:md1: Operation continuing on 1 devices.
[41505.059228] blk_update_request: I/O error, dev sdb, sector 2128
[41505.059242] md: super_written gets error=-5, uptodate=0
[41505.068838] RAID1 conf printout:
[41505.068840]  --- wd:1 rd:2
[41505.068842]  disk 0, wo:0, o:1, dev:sda1
[41505.068843]  disk 1, wo:1, o:0, dev:sdb1
[41505.081240] RAID1 conf printout:
[41505.081242]  --- wd:1 rd:2
[41505.081243]  disk 0, wo:0, o:1, dev:sda1
[76335.692718] perf interrupt took too long (2501 > 2500), lowering kernel.perf_event_max_sample_rate to 50000
[200194.212531] md: data-check of RAID array md0
[200194.212535] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[200194.212536] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for data-check.
[200194.212539] md: using 128k window, over a total of 976631488k.
[200200.228816] md: data-check of RAID array md2
[200200.228818] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[200200.228819] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for data-check.
[200200.228820] md: using 128k window, over a total of 116596736k.
[200200.229084] md: md2: data-check done.
[200260.321913] md: data-check of RAID array md1
[200260.321916] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[200260.321916] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for data-check.
[200260.321918] md: using 128k window, over a total of 511680k.
[200260.322152] md: md1: data-check done.
[208960.791800] md: md0: data-check done.
[313691.224027] ata3: exception Emask 0x10 SAct 0x0 SErr 0x4090000 action 0xe frozen
[313691.224058] ata3: irq_stat 0x00400040, connection status changed
[313691.224080] ata3: SError: { PHYRdyChg 10B8B DevExch }
[313691.224094] ata3: hard resetting link
[313691.947053] ata3: SATA link down (SStatus 0 SControl 300)
[313691.947061] ata3: EH complete
[313691.947065] ata3.00: detaching (SCSI 2:0:0:0)
[313691.947741] sd 2:0:0:0: [sdb] Synchronizing SCSI cache
[313691.947764] sd 2:0:0:0: [sdb] Synchronize Cache(10) failed: Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[313691.947765] sd 2:0:0:0: [sdb] Stopping disk
[313691.947768] sd 2:0:0:0: [sdb] Start/Stop Unit failed: Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[313691.953493] md: md1 still in use.
[313691.953500] md: md2 still in use.
[313691.953791] md: unbind<sdb1>
[313691.953804] md: unbind<sdb2>
[313691.965039] md: export_rdev(sdb2)
[313691.968033] md: export_rdev(sdb1)
[313693.579045] ata3: exception Emask 0x10 SAct 0x0 SErr 0x4000000 action 0xe frozen
[313693.579062] ata3: irq_stat 0x00000040, connection status changed
[313693.579075] ata3: SError: { DevExch }
[313693.579085] ata3: hard resetting link
[313699.353134] ata3: link is slow to respond, please be patient (ready=0)
[313703.332758] ata3: SATA link down (SStatus 0 SControl 300)
[313703.332761] ata3.00: link offline, clearing class 1 to NONE
[313703.332766] ata3: EH complete
[313764.300815] ata3: exception Emask 0x10 SAct 0x0 SErr 0x4050002 action 0xe frozen
[313764.300893] ata3: irq_stat 0x00400040, connection status changed
[313764.300986] ata3: SError: { RecovComm PHYRdyChg CommWake DevExch }
[313764.301052] ata3: hard resetting link
[313765.024243] ata3: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[313767.133650] ata3.00: ACPI cmd ef/10:06:00:00:00:00 (SET FEATURES) succeeded
[313767.133654] ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
[313767.133656] ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
[313767.133757] ata3.00: ATA-8: OCZ-VECTOR150, 1.2, max UDMA/133
[313767.133759] ata3.00: 234441648 sectors, multi 1: LBA48 NCQ (depth 31/32), AA
[313767.140987] ata3.00: ACPI cmd ef/10:06:00:00:00:00 (SET FEATURES) succeeded
[313767.140990] ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
[313767.140991] ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
[313767.141058] ata3.00: configured for UDMA/133
[313767.141063] ata3: EH complete
[313767.141110] scsi 2:0:0:0: Direct-Access     ATA      OCZ-VECTOR150    1.2  PQ: 0 ANSI: 5
[313767.141202] sd 2:0:0:0: [sdb] 234441648 512-byte logical blocks: (120 GB/111 GiB)
[313767.141221] sd 2:0:0:0: [sdb] Write Protect is off
[313767.141222] sd 2:0:0:0: [sdb] Mode Sense: 00 3a 00 00
[313767.141228] sd 2:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
[313767.141775] sd 2:0:0:0: Attached scsi generic sg1 type 0
[313767.141861]  sdb: sdb1 sdb2
[313767.142612] sd 2:0:0:0: [sdb] Attached SCSI disk
[313929.658393] md: export_rdev(sdb1)
[313929.905880] md: bind<sdb1>
[313929.937469] RAID1 conf printout:
[313929.937472]  --- wd:1 rd:2
[313929.937474]  disk 0, wo:0, o:1, dev:sda1
[313929.937475]  disk 1, wo:1, o:1, dev:sdb1
[313929.937867] md: recovery of RAID array md1
[313929.937869] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[313929.937870] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
[313929.937883] md: using 128k window, over a total of 511680k.
[313932.985769] md: md1: recovery done.
[313933.020441] RAID1 conf printout:
[313933.020446]  --- wd:2 rd:2
[313933.020449]  disk 0, wo:0, o:1, dev:sda1
[313933.020452]  disk 1, wo:0, o:1, dev:sdb1
[313938.256058] md: bind<sdb2>
[313938.267005] RAID1 conf printout:
[313938.267007]  --- wd:1 rd:2
[313938.267009]  disk 0, wo:0, o:1, dev:sda2
[313938.267010]  disk 1, wo:1, o:1, dev:sdb2
[313938.267134] md: recovery of RAID array md2
[313938.267137] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[313938.267138] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
[313938.267139] md: using 128k window, over a total of 116596736k.
[313987.616670] md: md2: recovery done.
[313987.633626] RAID1 conf printout:
[313987.633627]  --- wd:2 rd:2
[313987.633629]  disk 0, wo:0, o:1, dev:sda2
[313987.633630]  disk 1, wo:0, o:1, dev:sdb2

10

Re: [SSD] Автоматичний апгрейд з 120 GB до 600 PB

Виглядає так, що один з SSD раптово перестає відповідати на запити і в результаті рейд розвалюється. Ви вже пробували оновити його прошивку?

11 Востаннє редагувалося HetmanNet (17.08.2015 12:30:47)

Re: [SSD] Автоматичний апгрейд з 120 GB до 600 PB

Torbins написав:

Виглядає так, що один з SSD раптово перестає відповідати на запити і в результаті рейд розвалюється. Ви вже пробували оновити його прошивку?

Це найновіша версія прошивки в обох. -_-
Саме так і є.. це помітив одразу. Але не міг зрозуміти чому. Єдине що працює, це зняти з нього живлення, а потім повернути. Після цього SSD знову відповідає на запити.. поки глюк не повториться. Той що іменується /dev/sdb зникає частіше, аніж той що /dev/sda. Точніше /dev/sdb зникає раз п'ять між зникненнями /dev/sda. Ну /dev/sda зникав рази три чи чотири, з яких два можуть бути через те що рився коли пересмикував живлення на /dev/sdb.
Зараз граюся на офіційному форумі OCZ в гру "а може.. ".  Подібний випадок був, там вирішили заміною SSD на новий.