Войти

Показать полную графическую версию : [RAID1] SMART, Rebilding и др.проблемы


Flammable
23-06-2011, 13:38
Добрый день! Имеется RAID1 массив из двух WD1002FAEX. Проблема в том, что те утилиты, которыми я раньше мониторил SMART (был установлен один диск), теперь не обнаруживают ни одного диска. Подскажите, может есть специальный софт для таких случаев? Полный конфиг системы в профиле.
Спасибо.

Ment69
23-06-2011, 13:53
Материнская плата: MSI P45D3 Platinum я так понимаю райд поднят на интелевом чипсете, следовательно нужна утилита от Intel Intel® Rapid Storage Technology (http://downloadcenter.intel.com/Detail_Desc.aspx?ProductID=2101&DwnldID=19607&lang=eng&iid=dc_rss)

Она мониторит состояние дисков

Flammable
23-06-2011, 16:34
Скачал, установил. Показывает только статус диска работает/посыпался :)
Узнал, что один диск по неизвестным причинам отвалился. В утилите конфигурации raid (запускается после загрузки bios) статус массива Rebuild. Отключил один диск, статус failed. Система не грузится. Отключил raid контроллер, загрузился со здорового диска. Отвалившийся диск сразу определился как нераспределенный. Acronis Disk Director тоже не находит на нем разделов.
Заглянул в SMART, там такая картина (цвет сохранен):

Model: WDC WD1002FAEX-00Z3A0
Firmware: 05.01D05
Serial: WD-WCATR3636675
LBA: 1953525168

Report By: HDDScan for Windows version 3.1
Report Date: 23.06.2011 16:06:23


Num Attribute Name Value Worst Raw(hex) Threshold

001 Raw Read Error Rate 200 200 00000000-0000 051

003 Spin Up Time 172 172 00000000-111F 021

004 Start/Stop Count 100 100 00000000-0031 000

005 Reallocation Sector Count 200 200 00000000-0000 140

007 Seek Error Rate 200 200 00000000-0000 000

009 PowerOn Hours Count 097 097 00000000-0ADA 000

010 Spin Retry Count 100 253 00000000-0000 000

011 Recalibration Retries 100 253 00000000-0000 000

012 Device Power Cycle Count 100 100 00000000-002F 000

192 Power-off retract count 200 200 00000000-002B 000

193 Load/unload cycle count 200 200 00000000-0005 000

194 HDA Temperature 114 094 33 C 000

196 Reallocation Event Count 200 200 00000000-0000 000

197 Current Pending Sector Count 200 200 00000000-0001 000

198 Uncorrectable Sector Count 200 200 00000000-0001 000

199 UltraDMA CRC Error Count 200 200 00000000-0000 000

200 Write Error Rate 200 200 00000000-0001 000


Со второго диска отчет такой:

Model: WDC WD1002FAEX-00Z3A0
Firmware: 05.01D05
Serial: WD-WCATR3637103
LBA: 1953525168

Report By: HDDScan for Windows version 3.1
Report Date: 23.06.2011 16:06:12


Num Attribute Name Value Worst Raw(hex) Threshold

001 Raw Read Error Rate 200 200 00000000-0000 051

003 Spin Up Time 175 174 00000000-1081 021

004 Start/Stop Count 100 100 00000000-0040 000

005 Reallocation Sector Count 200 200 00000000-0000 140

007 Seek Error Rate 100 253 00000000-0000 000

009 PowerOn Hours Count 095 095 00000000-0E9D 000

010 Spin Retry Count 100 253 00000000-0000 000

011 Recalibration Retries 100 253 00000000-0000 000

012 Device Power Cycle Count 100 100 00000000-0030 000

192 Power-off retract count 200 200 00000000-001E 000

193 Load/unload cycle count 200 200 00000000-0021 000

194 HDA Temperature 114 099 33 C 000

196 Reallocation Event Count 200 200 00000000-0000 000

197 Current Pending Sector Count 200 200 00000000-0000 000

198 Uncorrectable Sector Count 200 200 00000000-0000 000

199 UltraDMA CRC Error Count 200 200 00000000-0000 000

200 Write Error Rate 200 200 00000000-0000 000


Из-за чего мог отвалиться первый диск, чего ожидать дальше?
И еще вопрос: как определить по SMART максимальную температуру, при которой работал диск?

Tau_0
23-06-2011, 17:25
Из-за чего мог отвалиться первый диск, чего ожидать дальше?
И еще вопрос: как определить по SMART максимальную температуру, при которой работал диск? »

Вот из-за температуры и мог на харде пендинг появиться....
197 Current Pending Sector Count 200 200 00000000-0001 000
Изведите его --- есть сто спосбов..., и массив восстановите.

Для первого --- Serial: WD-WCATR3636675
194 HDA Temperature 114 094 33 C 000
T_Нормализованная_текущая = 114
T_Нормализаванная_худшая = 094
T_Текущая_С = 33 C

Тогда,
T_Худшая = T_Текущая_С + (T_Нормализованная_текущая - T_Нормализаванная_худшая ) = 33 + ( 114 – 094 ) = 33 + 20 = 53 C

Много --- должно быть не более 45 C
Вот исследования компании Storelab.ru.
Сравнение надежности жестких дисков основных производителей
http://www.overclockers.ru/lab/37513/Sravnenie_nadezhnosti_zhestkih_diskov_osnovnyh_proizvoditelej.html
Для дисков WD характерен выход из строя блока магнитных головок (БМГ). Это происходит при перегреве (головки WD капризны при температуре выше 45 градусов Цельсия),…

Для второго --- Serial: WD-WCATR3637103
194 HDA Temperature 114 099 33 C 000
T_Худшая = 33 + ( 114 – 099 ) = 33 + 15 = 48 C

Тоже многовато.

ЗЫ Формула для пересчёта температур у хардов 1 TB WDC (FALS, FAEX, FBYS) мною проверена лично для диапазона 25 --- 48 C (составлены таблицы). Можете перепроверить --- мониторить (например, CrystalDiskInfo) текущую в градусах Целсия и нормализованную. Я выше 48 С харды не грел --- пожалел. А на этом интервале зависимость линейна, и проэкстраполировать её на диапазон 48-- 60 C (выше 60 C автоматика отключит хард) имнею основания...

Flammable
23-06-2011, 17:54
Изведите его --- есть сто спосбов..., и массив восстановите. »
Каким софтом лучше извести?

Tau_0
23-06-2011, 18:36
Каким софтом лучше извести? »
Скорее всего у Вас просто soft-bad…???...
Я бы сделал так:

1. Взял Victoria for DOS и просканировал ею поверхность всего харда, чтобы поймать сбойный блок секторов --- целых 256 секторов попадут по подозрение… Сканирование займёт часа 2.5 --- 3.

2. Напустил на вычисленный блок DMDE - DM Disk Editor and Data Recovery Softwarehttp://dmde.ru/download.html,
чтобы скопировать блок (а можно и больше…) в надёжное место.
При этом DMDE укажет точно LBA проблемного сектора, и попросит заменить его в копии нулями. Записываете этот LBA на лист бумаги.

3. Далее можно:

a) Взять MHDD и точно затереть единственный сектор нулями --- StartLBA = EndLBA. Victoria for DOS для этого хуже --- нельзя затереть один сектор (можно только два) --- баг разработчика. Хотя можно сделать викторией remap всего блока --- тогда и DMDE не нужен... Может так и лучше…

b) Можно просто вернуть копию назад --- главное LBA адресами не промахнуться… В копии сектор в блоке уже затёрт.

Может другие предложат Вам более простые варианты. Пробуйте -- у Вас RAID1 --- ничего страшного…

Flammable
24-06-2011, 22:52
В предыдущей теме (http://forum.oszone.net/thread-209714.html) я писал о том, что один диск из RAID1 массива отключился сам по себе, в Intel Matrix Storage Manager (доступен сразу после загрузки bios) видны оба диска и стоит статус Rebilding. Intel Rapid Storage Manager показывает, что второй диск отсутствует. Здесь (http://www.quatraine3.com/tribalwar/SwSetup/Robson/Application/Help/helptext_RUS.HTML) прочитал о том, что для восстановления RAID1 нужен Intel Matrix Storage Manager для Windows.
Скачал (IATA89CD.exe), при установке получаю сообщение "Ваша система не удовлетворяет минимальным требованиям", и на этом все заканчивается. В чем проблема?

IgNat
24-06-2011, 23:46
Flammable, т.е. при каждой вновь появившейся проблеме будете создавать новую тему? ;) Т.к. проблемы выявляются в силу выполнения предыдущих рекомендаций - продолжайте обсуждение в данной теме!

Flammable
25-06-2011, 00:07
Все-таки тема уже совсем другая - мониторинг SMART в массиве отличается от восстановления массива. Ну, продолжаем тут. Жду рекомендаций по решению проблемы:)

Tau_0
25-06-2011, 00:54
Жду рекомендаций по решению проблемы »
Логика проста, если сбой на рейде ===> быстро меняете сбойный хард на новый и средствами восстановления RAID восстанавливаете рейд.

Нет нового харда ===> трёте (на стороне) нулями старый до нуля, и подсовываете его в рейд.

Я предлагал промежуточный вариант --- побороться и обмануть систему…

Старый хард заклеймён и опущен --- просто так система его не пропустит уже на этапе POST BIOS --- интересно где (на самом харде, или во флеш RAID контролера) …???...

Давно я собирался это выяснить, да руки не дошли….

Flammable
25-06-2011, 09:44
Старый хард заклеймён и опущен --- просто так система его не пропустит уже на этапе POST BIOS --- интересно где (на самом харде, или во флеш RAID контролера) …???... »
Как же это не пропустит, если пропускает со статусом Rebuilding? По ссылке (http://www.quatraine3.com/tribalwar/SwSetup/Robson/Application/Help/helptext_RUS.HTML) пишут, что в этом случае нужно вручную запустить перестройку массива. Но установить необходимый для этого софт (Intel Matrix Storage Manager) у меня не получается.

Ment69
25-06-2011, 14:53
Но установить необходимый для этого софт (Intel Matrix Storage Manager) у меня не получается. » Потому что Intel Matrix Storage Manager и Intel® Rapid Storage Technology - одно и то же!

Tau_0
25-06-2011, 15:01
Как же это не пропустит, если пропускает со статусом Rebuilding? »
Пролущенный хард виден --- в чём тогда проблема…???... --- обращайтесь....

Flammable
25-06-2011, 16:44
Потому что Intel Matrix Storage Manager и Intel® Rapid Storage Technology - одно и то же! »
Далеко не одно и то же. В мануале к плате описано управление массивом с помощью Matrix Storage Manager. Rapid Storage Technology выглядит совсем по-другому и показывает лишь состояние массива.

Пролущенный хард виден --- в чём тогда проблема…???... --- обращайтесь.... »
Ну нет в Rapid Storage Technology кнопки "Rebuild".

IgNat
26-06-2011, 03:12
установить необходимый для этого софт (Intel Matrix Storage Manager) у меня не получается. »- перед установкой удалили Intel® Rapid Storage Technology?

Ment69
26-06-2011, 15:52
Далеко не одно и то же. » Windows 95 и Windows 7 тоже не похожи, идите на сайт Intel и спросите почему одну и ту же технологию, они по разному называют.

Flammable
26-06-2011, 23:01
перед установкой удалили Intel® Rapid Storage Technology? »
Надо удалить? Попробую.




© OSzone.net 2001-2012