PDA

Показать полную графическую версию : Все о SMART - расшифровка параметров, утилиты.


Страниц : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 [131] 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196

misha2
26-03-2015, 23:54
Можно ли отследить изменение параметров смарт"а по данным Raw? Т.е. не лучше\хуже, а сам факт изменения. »
Конечно ж. В поле RAW - это и есть текущие значения, а не их пороговые значения.
Увеличение значений RAW в 05, 196-198 атрибутах говорят об ухудшении физического состояния поверхностей HDD.
Допустим пятый параметр 5 Reallocated_Sector_Ct имеет RAW значение 0. Если его значение изменяется на 1 или больше это указывает на что-то или нет? »
Указывает на появившуюся запись о дефекте в G-листе, т.е. переназначение бэда.
Из коробки он смарт данные от клиента получить не может »
А если использовать HDDScan 3.xx ? В большинстве случаев она нормально показывает СМАРТы из почти всех юсб-боксов.
smart.jpg »
Данный СМАРТ нормален.

Normal
27-03-2015, 00:24
Можно ли отследить изменение параметров смарт"а по данным Raw? Т.е. не лучше\хуже, а сам факт изменения. »
В Hard Disk Sentinel есть графическое представление параметров SMАRT-a по датам, Hard Drive Inspector тоже предоставляет некие возможности извещения в данном вопросе.

misha2
27-03-2015, 01:39
В Hard Disk Sentinel есть графическое представление параметров SMАRT-a по датам »
А где в винте самом эти временные (по датам) отметки ? Чтоб было с чем сравнить... ;)
Или периодически снимать скриншоты с винта и сравнивать ? (Сомневаюсь что кто-то так и поступает). :)
Реально же юзеры обращают внимание/узнают про СМАРТ лишь заметив-ощутив проблемы с накопителем.
Но чаще всего - приходиться винт отнесть в гарантию, или бывает поздно уже и винт приходиться ремонтить (если нет гарантии как таковой) и ремонт вообще возможен.

Normal
27-03-2015, 01:48
периодически снимать скриншоты с винта и сравнивать ? »
Нет, вот например выбран атрибут 240
http://i5.imageban.ru/out/2015/03/27/cd43ae8b88303ae8e5ecb496a854426c.png (http://imageban.ru)

misha2
27-03-2015, 02:00
вот например выбран атрибут 240 »
А на кой он вам ? Или мож он имеет решающее значение для оценки состояния винта ? ;)
Никогда не думал что время проведённое головами в распарковке - имеет какое-то реальное значение для юзера. :o
Важнее ж аттрибуты дефектоскопий. Не правда ли ?
Юзеров интересуют появления бэдов, а не амплитуды БМГ ж.

Normal
27-03-2015, 02:06
На моих дисках все важные критические атрибуты по 0, на графике это просто прямая линия 0, мне надо было их показать?
Пожалуйста
http://i1.imageban.ru/out/2015/03/27/7bc29e691e11c85b983c5c81ab7f9259.png (http://imageban.ru)
http://i1.imageban.ru/out/2015/03/27/6b7d9f6906be659b46a2c8d7a1684fcd.png (http://imageban.ru)

Kluchnik_serg
27-03-2015, 09:41
Или периодически снимать скриншоты с винта и сравнивать ? (Сомневаюсь что кто-то так и поступает).
Реально же юзеры обращают внимание/узнают про СМАРТ лишь заметив-ощутив проблемы с накопителем.
Но чаще всего - приходиться винт отнесть в гарантию, или бывает поздно уже и винт приходиться ремонтить (если нет гарантии как таковой) и ремонт вообще возможен. »

Скрин я привет как пример вывода программы OpenHardwareMonitir и все.
Приведу в пример свою ситуацию. Мне необходимо не свой ПК мониторить, а организацию в 20шт кампов Linux+win.
Zabbix состоит из агента (клиента) и сервера.
Сервер подает запрос на каждого клиента по каждой переменной в назначенный промежуток времени.
Так как СМАРТ из коробки он читать не умеет, делаем костыль в конфиге клиента:
UserParameter=uHDD.health. , for /F "tokens=6" %a in ('c:\ZABBIX\smartmontools\smartctl.exe -H $1 ^| find "test result"') do @echo %a

uHDD.health. - это переменная, которую клиент вернет серверу.
for /F "tokens=6" %a in ('c:\ZABBIX\smartmontools\smartctl.exe -H $1 ^| find "test result"') do @echo %a - команда, которая выполнится на стороне клиента, для получения переменной.
Если винт первый, то вместо * и $1 будет /dev/sda/, если второй, то /dev/sdb и т.д.
На сервере мы получаем значение "PASSED".
Создаем тригер и сервер автоматом проверяет совпадает ли новое значение переменной со старым т.е. с PASSED. Если да, то все нормально, если нет, то можно назначить отправку почты с информацией о ПК о проблеме и СМС.

Аналогично, при помощи командных файлов на стороне клиента, можно получать значения критических параметров SMART из вывода OpenHardwareMonitir и сервер будет следить за их изменением. А если что случается, то маяковать СМСками и на почту.

Вопрос был в том, за какими значениями следить, за Value или за Raw. Ответ получил, всем спасибо.


От использования CrystalDiskInfo и программ подобного класса для постоянного мониторинга и отправки уведомлений отказались в пользу zabbix, ибо он умеет много чего, температуру отслеживать, состоянии памяти, нагрузка на процессор, свободное место на разделах и пр.
Если уже zabbix отмаякует, если что-то не так, то тогда уже по месту буду использовать CrystalDiskInfo, HDDScan или Викторию.

blacking84@vk
01-04-2015, 07:35
Люди добрые подскажите, с таким SMART все HDD не жилец?


ST2000DL003-9VT166 5YD85FYM
-------------------------------------------------------------------------
ID Name Value Worst Tresh Raw Health
-------------------------------------------------------------------------
1 Raw read error rate 88 72 6 45200494 ••••
3 Spin-up time 93 92 0 0 ••••
4 Number of spin-up times 100 100 20 488 •••••
5 Reallocated sector count 52 52 36 31848 ••
7 Seek error rate 64 60 30 391069847082 •••
9 Power-on time 72 72 0 24843 •••
10 Spin-up retries 100 100 97 0 •••••
12 Start/stop count 100 100 20 148 •••••
183 unknown attribut 100 100 0 0 •••••
184 End-to-End error 100 100 99 0 •••••
187 Reported UNC error 1 1 0 28796 •
188 Command timeout 94 87 0 120260920821 ••••
189 High Fly writes 95 95 0 5 ••••
190 Airflow temperature 67 45 45 33°C/91°F ••••
191 G-SENSOR shock counter 100 100 0 0 •••••
192 Power-off retract count 100 100 0 463 •••••
193 Load/unload cycle count 100 100 0 488 •••••
194 HDA Temperature 33 55 0 33°C/91°F ••••
194 Minimum temperature 90 55 0 6°C/42°F -
195 Hardware ECC recovered 37 12 0 45200494 •
197 Current pending sectors 1 1 0 32604 •
198 Offline scan UNC sectors 1 1 0 32604 •
199 Ultra DMA CRC errors 200 200 0 0 •••••
240 Head flying hours 100 253 0 97938139275526 •••••
241 unknown attribut 100 253 0 662539662 •••••
242 unknown attribut 100 253 0 3874042289 •••••

misha2
01-04-2015, 08:35
На моих дисках все важные критические атрибуты по 0, на графике это просто прямая линия 0, мне надо было их показать? »
То что аттрибуты по 0-ям и так можно увидеть в СМАРТе ж, в соответствующих аттрибутах.
Но это ж лично для вас не даёт никакой гарантии что этих переназначений не было.
Винт попросту не обязан сообщать все свои действия СМАРТу и ес-нно сам СМАРТ не может отображать все внутренние действия винта.
Полно винтов/моделей где смотришь в СМАРТ и видишь аттр. 05, 196-198 по нулям.
Смотришь сами листы дефектов например в РС3000, а записи оказыввается ведь есть там. Значит СМАРТ их не учёл/не вывел в отчёт.
Видимо отображение записей начинается с некоего порога, а это уже вопрос к технологиям СМАРТа и фирмварям винтов.
Полно встречается винтов с идеальным СМАРТом где всё по нулям, а поверхность разношена в хлам так, что удивляешься - а хде ж тот хвалёный СМАРТ, почему он не замечает очевидного.
Так всё дело в фирмвари винта ж, как она обрабатывает и отрабатывает ошибки и записи логгирует и выводит в отчёт. А сам СМАРТ лишь отображение логов винта.
И если винт ничего не делал по части дефектоскопий - то и в СМАРТе будет всё чисто и красиво, причём при ужасной поверхности дисков.

с таким SMART все HDD не жилец? »
100% не жилец. Опять же по аттрибуту 187 - он упавший из-за дефектов на поверхности в кол-ве 28796 шт и по аттр. 05 уже переназначенных - 31 848 шт.
Обрушившиеся 197, 198 аттрибуты до упора ж.
По всем показателям винт - в мусор, однозначно.

Вопрос был в том, за какими значениями следить, за Value или за Raw »
Смотреть надо колонку RAW, т.к. она отображает текущее состояние, а не пороговое.
И наверно проще следить не за конкретными аттрибутами, а за статусом СМАРТа (Good-Bad).
Потому что именно за аттрибутами не уследишь, у разных винтов с разными варями аттрибуты могут отображать совершенно разные цифры, а уж состояние их может и должно сильно различаться ж.
Следить за аттрибутами можно лишь по состоянию - падение до упора (1), а не по количественой составляющей.
Думаю что рассуждать стоит более проще, задав вопрос самому юзеру - "что его больше устроит" ? -
1. Падение аттрибутов до 1 и сообщение о полной невозможности работы винта.
2. Или же предупреждение о появившихся проблемах у винта (аттр. 05, 196-198). Но о состоянии, когда бэкап инфы и несложный ремонт винта ещё возможен.
Т.е. речь о своевременном предупреждении или о критичности состояния, когда вообще уже ничего сделать нельзя (в т.ч. и инфу спасти).

blacking84@vk
01-04-2015, 09:28
100% не жилец. »
И наверно проще следить не за конкретными аттрибутами, а за статусом СМАРТа (Good-Bad). »

в аттаче статус винта которого выше я приводил данные SMART.... получается, что нет толка следить за статусом SMARTa?

misha2
01-04-2015, 10:08
получается, что нет толка следить за статусом SMARTa? »
Смысл есть. Просто не срабатывание статуса СМАРТа коснулось именно вашего винта. На других очень вероятно что статус будет отрабатываться нормально.
Вот по именно вашему винту вопросик - случайно не апдейтили фирмварь винту, не перепрошивали ли вы его ?.. ;)

blacking84@vk
01-04-2015, 11:10
Вот по именно вашему винту вопросик - случайно не апдейтили фирмварь винту, не перепрошивали ли вы его ? »
Нет, ничего не делал, он работал 24/7 года полтора-два (кажется)....

misha2
01-04-2015, 11:59
Нет, ничего не делал »
Ну значит он попался уже проапдейтенный. Возможно сам винт - кетаец.

blacking84@vk
01-04-2015, 16:30
Ну значит он попался уже проапдейтенный. Возможно сам винт - кетаец. »
да китаец...вот его фото..

есть еще один такой же, позже сделаю ему проверку

misha2
01-04-2015, 18:25
есть еще один такой же »
Там даж написано - типа "изготовлен по ограниченной лицензии Сигейт Технолоджи".
С такими экземплярами точно придётся осваивать терминальные команды для их ремонта, дефектоскопии вручную. ;)

blacking84@vk
02-04-2015, 18:08
Вот он второй такой же винт, вроде нормальный:

ST2000DL003-9VT166 5YD85T1P
-------------------------------------------------------------------------
ID Name Value Worst Tresh Raw Health
-------------------------------------------------------------------------
1 Raw read error rate 113 99 6 57323080 •••••
3 Spin-up time 95 90 0 0 ••••
4 Number of spin-up times 99 99 20 1224 ••••
5 Reallocated sector count 100 100 36 0 •••••
7 Seek error rate 62 58 30 803457891630 •••
9 Power-on time 72 72 0 25111 •••
10 Spin-up retries 100 100 97 0 •••••
12 Start/stop count 100 100 20 151 •••••
183 unknown attribut 100 100 0 0 •••••
184 End-to-End error 100 100 99 0 •••••
187 Reported UNC error 92 92 0 8 ••••
188 Command timeout 100 98 0 8590065741 •••••
189 High Fly writes 100 100 0 0 •••••
190 Airflow temperature 67 44 45 33°C/91°F ••••
191 G-SENSOR shock counter 100 100 0 0 •••••
192 Power-off retract count 100 100 0 1294 •••••
193 Load/unload cycle count 100 100 0 1333 •••••
194 HDA Temperature 33 56 0 33°C/91°F ••••
194 Minimum temperature 90 56 0 4°C/39°F -
195 Hardware ECC recovered 17 12 0 57323080 •
197 Current pending sectors 100 100 0 0 •••••
198 Offline scan UNC sectors 100 100 0 0 •••••
199 Ultra DMA CRC errors 200 200 0 12 •••••
240 Head flying hours 100 253 0 130167573864835 •••••
241 unknown attribut 100 253 0 2491139371 •••••
242 unknown attribut 100 253 0 4115909444 •••••

А вот еще два самсунговских, тоже вроде ничего:

SAMSUNG HD154UI S1XWJ90Z206804
-------------------------------------------------------------------------
ID Name Value Worst Tresh Raw Health
-------------------------------------------------------------------------
1 Raw read error rate 100 99 51 0 •••••
3 Spin-up time 71 71 11 9480 •••
4 Number of spin-up times 100 100 0 296 •••••
5 Reallocated sector count 100 100 10 0 •••••
7 Seek error rate 100 100 51 0 •••••
8 Seek time perfomance 100 100 15 10892 •••••
9 Power-on time 96 96 0 19100 ••••
10 Spin-up retries 100 100 51 1 •••••
11 Recalibration retries 100 100 0 1 •••••
12 Start/stop count 100 100 0 283 •••••
13 Soft read error rate 100 99 0 0 •••••
183 unknown attribut 100 100 0 0 •••••
184 End-to-End error 100 100 0 0 •••••
187 Reported UNC error 100 100 0 4 •••••
188 Command timeout 100 100 0 0 •••••
190 Airflow temperature 76 1 0 24°C/75°F ••••
194 HDA Temperature 73 48 0 27°C/80°F ••••
195 Hardware ECC recovered 100 100 0 589311739 •••••
196 Reallocated event count 100 100 0 0 •••••
197 Current pending sectors 100 100 0 0 •••••
198 Offline scan UNC sectors 100 100 0 0 •••••
199 Ultra DMA CRC errors 100 100 0 20 •••••
200 Write error rate 99 97 0 268 ••••
201 Off-track errors count 100 100 0 0 •••••


SAMSUNG HD154UI S1XWJD1ZB03758
-------------------------------------------------------------------------
ID Name Value Worst Tresh Raw Health
-------------------------------------------------------------------------
1 Raw read error rate 100 97 51 3 •••••
3 Spin-up time 79 79 11 7200 •••
4 Number of spin-up times 100 100 0 357 •••••
5 Reallocated sector count 99 99 10 44 ••••
7 Seek error rate 100 100 51 0 •••••
8 Seek time perfomance 100 100 15 11119 •••••
9 Power-on time 93 93 0 36681 ••••
10 Spin-up retries 100 100 51 0 •••••
11 Recalibration retries 100 100 0 0 •••••
12 Start/stop count 100 100 0 357 •••••
13 Soft read error rate 100 97 0 2 •••••
183 unknown attribut 100 100 0 0 •••••
184 End-to-End error 100 100 0 0 •••••
187 Reported UNC error 100 100 0 131 •••••
188 Command timeout 100 100 0 0 •••••
190 Airflow temperature 79 1 0 21°C/69°F ••••
194 HDA Temperature 80 45 0 20°C/68°F ••••
195 Hardware ECC recovered 100 100 0 771717942 •••••
196 Reallocated event count 99 99 0 44 ••••
197 Current pending sectors 100 100 0 0 •••••
198 Offline scan UNC sectors 100 100 0 0 •••••
199 Ultra DMA CRC errors 100 100 0 5 •••••
200 Write error rate 99 91 0 108 ••••
201 Off-track errors count 100 100 0 0 •••••
все они работали 24/7, самсунговские были куплены раньше

misha2
02-04-2015, 18:58
второй такой же винт, вроде нормальный »
Нормальный вполне, правда страдалец работавший не с очень качественным БП (аттр. 192, 193).
вот еще два самсунговских, тоже вроде ничего »
Да, они ничего, но последний имеет проблемки ж (аттр. 187, 196).
Но у последнего ж и наработка приличная ж. И походу может сата-шлейфы некачественные, мож и разгоном баловались или контакты с обратной стороны платы грязные (аттр. 195).
Думается что не мешало б ластиком контакты с обратной стороны платы контроллера - почистить.

blacking84@vk
03-04-2015, 06:14
И походу может сата-шлейфы некачественные, мож и разгоном баловались или контакты с обратной стороны платы грязные »
Нет, разгоном не баловались, а вот сата-шлейф на одном из этих 4-х винтов (может как раз на этом винте) действительно был не очень (треснут в месте соединения с HDD), потом при обнаружении был заменен на новый.

Andrei_Shalayev@vk
04-04-2015, 10:32
День добрый. Подскажите плиз. Хочу взять Caviar Blue с рук, имеется SMART его, но сам не разбираюсь в деталях. Брать стоит, не полетит через день?

Normal
04-04-2015, 11:20
Andrei_Shalayev@vk, хороший винт, можно брать.




© OSzone.net 2001-2012