Сервер зависает с критической ошибкой и иногда перестраивает массив

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)

- Windows Server 2008/2008 R2 (http://forum.oszone.net/forumdisplay.php?f=97)

- - Сервер зависает с критической ошибкой и иногда перестраивает массив (http://forum.oszone.net/showthread.php?t=255609)

zionkv

06-03-2013 05:31 2105173

Сервер зависает с критической ошибкой и иногда перестраивает массив

Периодически зависает машина, не могу понять причин. Windows Server 2008 R2 в качестве КД, DHCP, SQL и 1С (так уж сложилось, что без HV). Марка сервера: HP PriLoant ML110 G6. 2 х 120 гБ родных HDD массивом RAID-1 (mirror).

Цитата:

Система перезагрузилась, не завершив полностью работу. Эта ошибка может быть результатом того, что система перестала отвечать, произошел критический сбой, или неожиданно отключилось питание.

Каждые несколько перезагрузок происходит следующее: во время запуска сервера, после BIOS, появляется запрос от RAID-контроллера на перестройку массива. После загрузки системы можно увидеть в вебовской утилите HP прогресс перестроения массива, который длится около десятка часов. По сведениям вебовской утилиты HP - все датчики HDD и массива в норме.

Куда копать, как избежать зависаний?

brass_net

06-03-2013 06:55 2105189

Цитата:

Цитата zionkv

После загрузки системы можно увидеть в вебовской утилите HP прогресс перестроения массива, который длится около десятка часов. »

Так он в итоге заканчивается успешно, или как, массив в каком состоянии?

zionkv

06-03-2013 13:43 2105431

Цитата:

Цитата brass_net

Так он в итоге заканчивается успешно, или как, массив в каком состоянии? »

Нормально заканчивается, все зеленым. Но тормоза ведь, пока перестраивается. Да и перед перезагрузкой, хотя не уверен, пользователи пока точно не сообщили.

exo	06-03-2013 13:51 2105441

выполните действия по анализу BSOD.
А то, что у вас верификация начинается после загрузки, то это нормальное явление. RAID должен же проверить что у него всё в порядке.

alef2474

08-03-2013 22:10 2107050

Цитата:

Цитата zionkv

Нормально заканчивается, все зеленым. Но тормоза ведь, пока перестраивается. »

А разве когда перестраивается RAID можно работать у НР(пусть с тормозами)? Обычно ведь ОС не грузится, пока не перестроится.
Какой-нибудь диск сыпется(лампочка должна показывать), может быть. Обратитесь в НР за консультацией.

exo	08-03-2013 22:20 2107057

Цитата:

Цитата alef2474

А разве когда перестраивается RAID можно работать у НР(пусть с тормозами)? Обычно ведь ОС не грузится, пока не перестроится. »

а смысл тогда в RAID ? там возможно не перестройка идёт, а верификация. а НР обратится конечно стоит, может и гарантия есть.

alef2474

08-03-2013 22:27 2107060

Цитата:

Цитата exo

а смысл тогда в RAID ? »

Он говорит не про текущую работу, когда битый RAID и должен тормозить, а про действия при перезагрузке компа, когда RAID сперва должен нормально восстановиться, а потом уж ОС запускать. Хотя если диск битый и на 100% используется в RAID, то его надо просто менять на аналогичный или больший по размеру. Какая-нибудь софт-утилита должна показывать сбойность диска.

exo	08-03-2013 22:31 2107064

Цитата:

Цитата alef2474

когда RAID сперва должен нормально восстановиться, а потом уж ОС запускать »

вот ОС и должна загрузится с живого диска, а ребилд в фоне. это ж сколько ждать если загрузочный диск несколько терабайт ?

alef2474

08-03-2013 22:38 2107067

Цитата:

Цитата exo

вот ОС и должна загрузится с живого диска, а ребилд в фоне. это ж сколько ждать если загрузочный диск несколько терабайт ? »

Пусть сделает ребилд не в фоне, а до загрузки - войдет в биос меню. А ждать столько, сколько нужно - может и десяток часов, как пишет. А лучше чтоб данные полетели?
А если при загруженной ОС, то уж по крайней мере без каких-либо внешних подключений.

exo	08-03-2013 22:41 2107068

Цитата:

Цитата alef2474

Пусть сделает ребилд не в фоне »

не надо ничего делать :) мы ещё не знаем в чём проблема. автор так и не сделал анализ BSOD

alef2474

08-03-2013 22:45 2107072

Цитата:

Цитата exo

мы ещё не знаем в чём проблема »

По тому, как он описал - RAID пытается перестроится и не может на том же "сбойном" диске. Почему ошибку не показывает непонятно, такой уж сбой.
Хотя может это и сбой памяти или чего-то другого.

exo	08-03-2013 23:24 2107092

alef2474, в моём понимании, есть BSOD, после которого рейд восстанавливается. Причины BSOD не ясны.

alef2474

08-03-2013 23:57 2107106

Цитата:

Цитата exo

есть BSOD »

У него нет синего экрана, у него просто зависание из-за исчерпания памяти, может быть, из-за SQL.

exo	09-03-2013 13:20 2107303

Цитата:

Цитата zionkv

zionkv

11-03-2013 05:42 2108386

Прошу прощения за задержку с ответом. Дамп пока выложить не могу, т.к. не нашел самого файла. Сейчас включу запись дампов согласно этой инструкции (картинка)

и создам одноименную папку в "../windows/"

Разговаривал по теме на мелкомягком форуме, ссылка, если кому будет не лень, в общем итоге нарвались на сообщения от источника Storage Agent:

Ошибки 1216:
Drive Array Physical Drive Status Change. The physical drive in Slot 0, Port 1I Box 1 Bay 1 with serial number "WCAT1F275051 ", has a new status of 3.
(Drive status values: 1=other, 2=ok, 3=failed, 4=predictiveFailure, 5=erasing, 6=eraseDone, 7=eraseQueued)
[SNMP TRAP: 3046 in CPQIDA.MIB]

И предупреждения 1200:
Drive Array Logical Drive Status Change. Logical drive number 1 on the array controller in Slot 0 has a new status of 5.
(Logical Drive status values: 1=other, 2=ok, 3=failed, 4=unconfigured, 5=recovering, 6=readyForRebuild, 7=rebuilding, 8=wrongDrive, 9=badConnect, 10=overheating, 11=shutdown, 12=expanding, 13=notAvailable, 14=queuedForExpansion, 15=multipathAccessDegraded, 16=erasing)
[SNMP TRAP: 3034 in CPQIDA.MIB]

Предполагаю, что Recovering происходит не просто так. С одной стороны, если судить по картинке, то все в порядке:

С другой - собираюсь выключить проблемный ЖД и покрутить недельку-другую "на одном крыле", в это время прогнать Викторией крыло второе.

Касаемо зависушек, стоит "автоматически перезагружаться".

exo	11-03-2013 11:45 2108489

Цитата:

Цитата zionkv

С одной стороны, если судить по картинке, то все в порядке: »

судя по картинке, до всё в порядке ещё 39 %

zionkv

11-03-2013 12:45 2108513

Цитата:

Цитата exo

судя по картинке, до всё в порядке ещё 39 % »

Он так перестраивается каждые две недели. Всегда успешно.

alef2474

12-03-2013 00:22 2108967

Цитата:

Цитата zionkv

Он так перестраивается каждые две недели. Всегда успешно. »

Ничего не в порядке, диск глючит, надо менять, что я и говорил. Неужели сложно заменить SATA диск на 230 Гб?
Смените - один раз перестроится и успокоится.

AkP	12-03-2013 04:42 2109031

110 сервер 6-го поколения ну сильно начального уровня, не стоит ожидать от него чудес самодиагностики. Если агент сказал что recovering, то естественно вы видите статус ОК. Посмотрите смарт атрибуты, скорее всего жесткий диск пора выкидывать. От контроллера b110 так же не стоит ожидать уровня работы ентерпрайз. Он сделан на основе бюджетного intel ich10, со всеми вытекающими. Для серверов 100-серии почти нормально видеть бсод при проблеме с дисками, его задача защитить данные от потери, а не продолжить работу. А почему "почти", потому, что это зависит от прошивок дисков и контроллера и драйверов на последний. Если вам религия не позволяет менять диск пока он не вышел из строя "совсем", обновите микрокоды и драйвера и скорее всего будете видеть такие ошибки в логах без бсода, а просто с замедлением работы сервера, которое тоже нормальное явление для серверов начального уровня и сата дисков.
Вообще это и есть одна из принципиальных разниц оборудования начального уровня и сегментов выше, последние бы в большинстве случаев не стали делать recovering, а сразу исключили сбойный диск из работы.

Время: 05:30.