Intel Modular mfsys25 замена дисков в RAID [Версия для КПК]

Показать полную графическую версию : Intel Modular mfsys25 замена дисков в RAID

DeniTornado

08-12-2017, 21:56

Доброго всем коллеги!
Вопрос по проблемке с RAID в серваке Intel Modular mfsys25. На нем собрано парочка LUN из 10 дисков (Все в RAID 10). На серваке крутятся несколько виртуальных машин. Все это на XenServer.

Полторы недели назад в корзине с дисками на 10-ом диске загорелся индикатор. Посмотрел в веб морде, диск=DEAD. Так же заметил, что диск в корзине под №1 в Event-ах сервера зарегистрировалось уже несколько событий по найденным bad sector на диске №1. Стал в спешном режиме искать диски на замену этим. Купил как раз два. Сегодня поменял диск №10. Запустился Rebuild LUNа.
Сейчас пришел домой решил посмотреть что с процессом ребилда.

Смотрю в 20:20 - Predictive Data Migration has completed. Т.е. миграция данных завершилась успешно!
Но отвалился диск под №1 у которого системой были замечены bad sector.
И я не понимаю немного - диск не пометился как dead. Статус у него=Stale.
А в событиях есть такие по поводу этого диска:
1) Bad sector has been found on physical disk
2) A drive has encountered PFA condition (через пару минут)
3) Physical Drive has become stale (через секунду после второго события)

Если кликнуть на этот диск в веб морде сервака, то у него в меню есть такой пункт "Clear State Condition".
Вот я не понимаю суть события A drive has encountered PFA condition (что такое PFA) и Physical Drive has become stale (stale=устарел, в смысле он устарел).

И как считаете диск №1 тоже сдох или впал какое непонятное состояние?
Но данные на RAIDе живые, виртуалки работают.
Я не пойму, это как-то связано с заменой 10-го диска или так совпало, что только завершился ребилд 10-го диска после замены и тут же сдох №1?

Спасибо!

Jula0071

08-12-2017, 22:27

10 дисков (Все в RAID 10) »
10 дисков в райд 10 (без запасных) можно организовать двумя способами: 5 страйпов по 2 зеркала, либо 2 страйпа по 5 зеркал. У вас, скорее всего, первый вариант (второй суперизбыточный, но как знать). Очень необычная конфигурация.
Но данные на RAIDе живые, виртуалки работают. »
И будут живые, пока жив хотя бы один диск в каждом из зеркал.
это как-то связано с заменой 10-го диска или так совпало »
Бывает, что диски выходят из строя пачками. Но на то есть мониторинг SMART.

DeniTornado

08-12-2017, 22:38

Ну т.е. так совпало, что диск №1 выпал из RAID?
Пгуглив я ни не понял пока про состояние Stale! Как его понимать? Stale вроде переводится как устаревший. Т.е. диск не сдох, но впал в какую-то кому!
Про PFA немного понятнее - это вроде как отказ диска по SMARTу. Тут уже логичнее, то что у него были события bad sector.....

Т.е. мне надо и этот диск (№1) менять?

Jula0071

08-12-2017, 22:40

Stale disk:

If a disk is marked Stale it should not be reused. However there are some conditions a disk may go stale on an otherwise good disk.

Unless you are absolutely sure the disk is good and know why the stale state happened, a stale disk should not be reused.

PFA disk:

If a disk is marked PFA, we believe the disk will fail and it should not be reused. Disks with SMART errors, physical errors or frequently time-out are often marked PFA.

A disk marked PFA should not be reused.

Dead disk:

If a disk is marked Dead, it should not be reused. However disks could be marked dead for reasons other than disk failure. Accidentally removing a disk or power cycle the unit in an incorrect order may create dead disks. These disks would otherwise be good, except for user error.

Unless you know the specifics on why the disk is marked dead, a dead disk is likely a failing disk and should not be reused.
Do not force Dead disks online unless you know the array data is current and not stale. Please contact Promise Technical Support and provide the system service report (subsysteminfo) before forcing any dead disk online.

DeniTornado

08-12-2017, 22:59

По поводу нашей конфигурации дисков. Я сейчас стянул картинку с этого сервака в виде графических связей. Ну и на схеме видно, что диск #1 отвалился и висит в состоянии Unused
https://preview.ibb.co/hvUMaG/luns.jpg (https://ibb.co/dCiQ2w)

В сервере 10 дисков по 600ГБ. каждый. Из этого всего сделан, как я понимаю пул "Cloud" и там уже нарезаны LUNы в 10-ке RAID.
Вроде так понял конфу?

Спасибо за инфу по статусам - я ее видел. Но мне просто не понятна сама суть Stale. Устарели данные. Это что на диск не зеркалировалась инфа в нужный момент из-за сбоев с ним?

Jula0071

08-12-2017, 23:08

Но мне просто не понятна сама суть Stale. Устарели данные. »
Не, тут имеется в виду, что диск подозрительный и лучше его не использовать. Stale в данном контексте перводится как "подтухший".

DeniTornado

08-12-2017, 23:17

Не, тут имеется в виду, что диск подозрительный и лучше его не использовать. Stale в данном контексте перводится как "подтухший". »

Интересно, а в понедельник я когда соберусь его менять, т.к. у меня есть еще один запасной новый диск....
Мне так же как и сегодня его на живую вытащить из сервака и на его место установить новый? Не надо же вроде перед извлечением диска с таким статусом на серваке, какие-то действия подготовительные делать? Сегодня когда я менял диск №10 со статусом Dead, я так и сделал:
1) вытащил сдохший диск
2) поставил на его место новый
3) В веб морде нажал hot spare..(как-то так)
4) Сервак спросил, что я хочу сделать новый пул или добавить к Cloud (который уже есть). Я добавил к Cloud.
5) Начался ребилд массива

А если диск в состоянии Stale наверное алгоритм не меняется? Данные с него ведь наверняка на каком-то из дисков отзеркалированны?
Спасибо!

Jula0071

09-12-2017, 19:25

3) В веб морде нажал hot spare..(как-то так) »
Я не знаком с этой конкретной системой, но обычно ребилд делается автоматически при установке нового диска.
А если диск в состоянии Stale наверное алгоритм не меняется? Данные с него ведь наверняка на каком-то из дисков отзеркалированны? »
Должно быть так.

mwz

10-12-2017, 20:24

обычно ребилд делается автоматически при установке нового диска »
DeniTornado, причём новый диск не только не надо — но и нельзя "готовить". Распечатываете его упаковку, изымаете неисправный диск и вставляете на его место только что распечатанный диск.

DeniTornado

10-12-2017, 23:07

причём новый диск не только не надо — но и нельзя "готовить". »
Про "готовить" чего-то не понял ). Так я так и сделал с первым диском №10. Вытащил неисправный, вставил на его место только что распакованный. Нажал в интерфейсе Hot Spare - Dedicated ....чего-то там (типа добавить его в Cloud дисков) и ребилд запустился автоматом. Вот завтра предстоит тоже самое с диском №1, который сдох (Status=Stale) сразу после ребилда №10.

mwz

10-12-2017, 23:16

Про "готовить" чего-то не понял ) »

Это ответ на
надо же вроде перед извлечением диска с таким статусом на серваке, какие-то действия подготовительные делать? »

Просто некоторые считают, что на диске перед этим надо то ли создавать раздел(ы), то ли ещё что-то с ним делать.
Вижу уже, что не про вас — но мне ваш уровень сразу не виден, так что я на всякий случай. :)

DeniTornado

11-12-2017, 10:45

Ну я сам в такой железке первый раз что-то меняю и некоторые кнопки в интерфейсе немного сбивают с толку. Что нажать и что будет. А встроенная справка по какой-то причине не отображается. Какой-то косяк софта.
Я раньше в основном имел дело с более простыми железками с RAIDами, поэтому перед любым действием хочется сначала полностью понять что надо и что будет если так сделать.....
Сейчас был в серверной. На диске №1? который "вылетел" из массива после ребилда диска №10, горит красный индикатор, как и ожидалось. Я думаю хоть статус DEAD хоть STALE, надо менять диск на новый по схеме, что делал в пятницу вечером с диском 10.