PDA

Показать полную графическую версию : [решено] Intel RAID5 в состоянии Degraded


Страниц : [1] 2

Tonny_Bennet
31-07-2014, 12:50
Здравствуйте.

Есть сервер. Он далеко и доступ только по RDP. Материнка Intel S5500BC. не мною Развернут RAID5 из трёх дисков. На сервере крутится MS SQL с несколькими базами 1С. Сотрудники начали жаловаться на тормоза в работе. Зашёл в монитор ресурсов - там было 100 процентов активного времени использования дисков. Поставил утилиту от Intel RAID Web Console 2. Увидел, что логический массив в состоянии Degraded, все физические диски Online.

Ниже текстовый вариант конфигурации:


SERVER---
Server IP: 192.168.3.2
Server Name: profit-main
OS name: Windows Server 2008
OS Version: 6.0
OS Architecture: x86_64
Driver Name: LSI MegaSR RAID5
Driver Version: 14.05.0727.2011
Application Version: RAID Web Console 2 - 14.02.01.03

HARDWARE---
Controller: Intel Embedded Server RAID Technology II(Bus 0,Dev 31)
Status: Needs attention
Firmware Package Version:
Firmware Version: null
BBU: NO
Enclosure(s): 0
Drive(s): 3
Virtual Drive(s): 1

Drives:---
PRODUCT ID VENDOR ID STATE DISK TYPE CAPACITY POWER STATE
ST3250310NS ATA Online SATA 231.898 GB On
ST3250310NS ATA Online SATA 231.898 GB On
ST3250310NS ATA Online SATA 231.898 GB On

Optical Drives---
PRODUCT ID VENDOR ID SCSI Device Type REVISION LEVEL
OptiarcDVDRWA ATA CDROM 31 0

Virtual Drive(s):---
TARGET ID NAME CAPACITY STATE RAID LEVEL MegaRAID RECOVERY
0 MegaSR R5 #0 695.695 GB Degraded RAID 5 NO



Что меня смущает: в этой программке я не вижу причины почему массив перешёл в состояние Degraded. Не вижу смарта дисков и их ошибок. Также в сети да и в мануале говорится о пункте меню Operations. У меня почему-то такого пункта в ПО нет. Может быть так, что ПО не стыкуется с контроллером, контроллером, что-то не включено в BIOS контроллера.

vadblm
02-08-2014, 18:41
Предположу, что контроллер потерял полудохлый диск, но потом опять подцепил и сейчас идёт ребилд. По идее, об этом должно сообщаться в мониторинге, но к сожалению, я не знаком с подходящим софтом для этого в Windows. Но картина как раз такая, когда ребилдится RAID5.

Во всяком случае, сервер нужно переделывать, RAID5, да ещё всего на 3 дисках при серьёзном использовании дисковой подсистемы, это выстрел в ногу.

И бэкап делайте незамедлительно, если ещё не сделали!

Ment69
03-08-2014, 07:54
и сейчас идёт ребилд » Тогда бы состояние массива было - ребилд.

Tonny_Bennet
04-08-2014, 10:53
Во всяком случае, сервер нужно переделывать, RAID5, да ещё всего на 3 дисках при серьёзном использовании дисковой подсистемы, это выстрел в ногу. »
Прекрасно понимаю что это косяк, но как и говорил - собирал его не я :).

но потом опять подцепил и сейчас идёт ребилд. »
Тогда бы состояние массива было - ребилд. »

Не могу разобраться в непонятном ПО от Intel. Там только статус Degraded и больше ничего. И ничего сделать нельзя. Наверное придётся ехать в другой город и ребилдить массив на месте. Или сломать всё и поднять RAID10 на новых дисках.

Tonny_Bennet
04-08-2014, 13:52
Для инофрмации. Согласовал с руководством замену всего дискового массива и развёртывание двух логических томов для баз данных RAID10 и для системы RAID1. Позвонил айтишнице и попросил узнать сколько влезает дисков в корзину. Она сказала, что там сейчас установлено пять и есть место для шестого. Зашёл ещё раз в утилиту конфигурирования. Там видны уже четыре диска, один в состоянии offline.


SERVER---
Server IP: 192.168.3.2
Server Name: profit-main
OS name: Windows Server 2008
OS Version: 6.0
OS Architecture: x86_64
Driver Name: LSI MegaSR RAID5
Driver Version: 14.05.0727.2011
Application Version: RAID Web Console 2 - 14.02.01.03

HARDWARE---
Controller: Intel Embedded Server RAID Technology II(Bus 0,Dev 31)
Status: Needs attention
Firmware Package Version:
Firmware Version: null
BBU: NO
Enclosure(s): 0
Drive(s): 4
Virtual Drive(s): 1

Drives:---
PRODUCT ID VENDOR ID STATE DISK TYPE CAPACITY POWER STATE
ST3250310NS ATA Online SATA 231.898 GB On
ST3250310NS ATA Online SATA 231.898 GB On
ST3250310NS ATA Online SATA 231.898 GB On
ST3250310NS ATA Offline SATA 231.898 GB On

Optical Drives---
PRODUCT ID VENDOR ID SCSI Device Type REVISION LEVEL
OptiarcDVDRWA ATA CDROM 31 0

Virtual Drive(s):---
TARGET ID NAME CAPACITY STATE RAID LEVEL MegaRAID RECOVERY
0 MegaSR R5 #0 695.695 GB Degraded RAID 5 NO



P.S. Командировка и бессонная ночь впереди.

vadblm
04-08-2014, 21:59
Там видны уже четыре диска, один в состоянии offline. »
Значит, всё ещё хуже, диск отвалился совсем и вы каждый момент рискуете потерять всё. А что контроллер (или его драйвер, или утилита, снимающая с него показания) врёт, радости не добавляет.
Раз так, я бы не рисковал, поменял всю железку, а не ограничился перестройкой массива. А эту на диагностику и может поживёт ещё.
установлено пять »
М.б. это был hot-spare и тоже потерялся в веках и глюках. Хотя уже и гадать не хочется, так всё скверно выглядит. Скверно потому, что нет достоверной инфы.

Прекрасно понимаю что это косяк, но как и говорил - собирал его не я . »
Я не упрекаю, не нужно оправдываться. Просто всё очень плохо было изначально. Не сделать мониторинг (и проверить его работу) с уведомлением хотя бы по почте — верх безответсвенности. Тут либо настраивавший поленился, либо заказчику пох.
P.S. Командировка и бессонная ночь впереди. »
Удачи.

Tonny_Bennet
05-08-2014, 22:26
P.S. Командировка и бессонная ночь впереди. »
Я на месте, пишу с фронта :).

В корзине стоит пять дисков. Система видела 3. Как из RAID5 убрать два диска и система останется рабочей я не знаю, но у меня работает. Поправил шлейфы в корзине; система увидела 5. Из новеньких: один оффлайн, второй Unconfigured Good. Что-то мне кажется, что про последнего забыли, когда массив собирали. Или специально оставили про запас. Итого RAID5 из 4-х дисков и один не в массиве.

При запуске сервера утилита конфигурирования RAID говорит, что всё плохо и предлагает сделать ребилд. Прождал 15 минут, даже на 1 процент прогресс не сдвинулся. Отменил. Перезапустил сервер.

Попробовал диск из оффлайн перевести в онлайн (из под Windows). Система стала безбожно виснуть. Потом диск снова перешёл в оффлайн. Скорее всего это и есть мой косячный винт. Но как его определить в корзине не знаю. Она без индикации и понять кто есть кто не получится.

Думал убрать сбойный винт и добавить в массив нормальный, потом запустить ребилд. Боязно что не поднимется.

Решение о замене дисков на новые уже принято руководством и следующая ночь будет посвящена именно этому.


SERVER---
Server IP: 192.168.3.2
Server Name: profit-main
OS name: Windows Server 2008
OS Version: 6.0
OS Architecture: x86_64
Driver Name: LSI MegaSR RAID5
Driver Version: 14.05.0727.2011
Application Version: RAID Web Console 2 - 14.02.01.03

HARDWARE---
Controller: Intel Embedded Server RAID Technology II(Bus 0,Dev 31)
Status: Needs attention
Firmware Package Version:
Firmware Version: null
BBU: NO
Enclosure(s): 0
Drive(s): 5
Virtual Drive(s): 1

Drives:---
PRODUCT ID VENDOR ID STATE DISK TYPE CAPACITY POWER STATE
ST3250310NS ATA Online SATA 231.898 GB On
ST3250310NS ATA Online SATA 231.898 GB On
ST3250310NS ATA Online SATA 231.898 GB On
ST3250310NS ATA Failed SATA 231.898 GB On
ST3250310NS ATA Unconfigured Good SATA 231.898 GB On

Optical Drives---
PRODUCT ID VENDOR ID SCSI Device Type REVISION LEVEL
OptiarcDVDRWA ATA CDROM 31 0

Virtual Drive(s):---
TARGET ID NAME CAPACITY STATE RAID LEVEL MegaRAID RECOVERY
0 MegaSR R5 #0 695.695 GB Degraded RAID 5 NO

User001
06-08-2014, 07:51
При запуске сервера утилита конфигурирования RAID говорит, что всё плохо и предлагает сделать ребилд. Прождал 15 минут, даже на 1 процент прогресс не сдвинулся. Отменил. Перезапустил сервер. »Всегда "радуют" такие моменты...
Решение о замене дисков на новые уже принято руководством и следующая ночь будет посвящена именно этому. »А восстанавливать как будете?

Tonny_Bennet
06-08-2014, 10:41
Всегда "радуют" такие моменты... »
Заменил фейловый диск на нормальный. Радуюсь ребилду второй час. Всё ещё 0%.

А восстанавливать как будете? »
И бэкап делайте незамедлительно, если ещё не сделали! »
Бекапы баз делались раз в сутки и скидывались на внешний диск. Ещё в последний момент слил сами файлы *.mdf *.ldf.

Попробую развернуть сервер 1С + MS SQL на обычном компе. Пришёл утром. На сервере синий экран и траблы с дисками.

User001
06-08-2014, 11:13
Попробую развернуть сервер 1С + MS SQL на обычном компе. Пришёл утром. На сервере синий экран и траблы с дисками.»Интересно в данной ситуации как произойдет создание / восстановление ОС из бекапа...

Tonny_Bennet
06-08-2014, 11:19
Интересно в данной ситуации как произойдет создание / восстановление ОС из бекапа... »
Делались бекапы баз данных. Так что нужно развернуть ОС самому, в ней развернуть MS SQL Server, и уже внутри него развернуть бекапы.

vadblm
06-08-2014, 22:23
В корзине стоит пять дисков. Система видела 3. Как из RAID5 убрать два диска и система останется рабочей я не знаю, но у меня работает. Поправил шлейфы в корзине; система увидела 5. Из новеньких: один оффлайн, второй Unconfigured Good. Что-то мне кажется, что про последнего забыли, когда массив собирали. Или специально оставили про запас. Итого RAID5 из 4-х дисков и один не в массиве. »
Из RAID 5 2 диска никак не убрать, второй очевидно был задуман как hot spare, но либо его недоконфигурили, либо глюк.
Делались бекапы баз данных. Так что нужно развернуть ОС самому, в ней развернуть MS SQL Server, и уже внутри него развернуть бекапы. »
Ну хоть так.

А основную машинку нужно лечить серьёзно, узнать почему диски потерялись, почему нашлись после перетыка (оксил на контактах? полудохлые кондёры на контроллере? хз). Диски точно менять, причём все. Желательно всю машинку заменить, но если с бюджетом туго, то можно попытаться гальванизировать труп, хотя судя по описанию, ей и так пора на списание, пардон за каламбур. Как правильно сделать массив вы сами знаете, про мониторинг не забудьте.

Tonny_Bennet
06-08-2014, 22:51
Из RAID 5 2 диска никак не убрать, второй очевидно был задуман как hot spare, но либо его недоконфигурили, либо глюк. »
Возможно и был задуман как hot spare да только как его отличить от остальных я так и не понял (корзина без индикации для каждого диска; просто ящик с охлаждением) Методом тыка нашёл убитый диск и подцепил на его место тот неведомый. Запустил ребилд. За 1 час прогресс сдвинулся на 2 процента. За это время как раз и развернул резервный сервер, на котором поднялась 1С и MS SQL.

А основную машинку нужно лечить серьёзно, узнать почему диски потерялись, почему нашлись после перетыка (оксил на контактах? полудохлые кондёры на контроллере? хз). »
Всяко бывает. Склоняюсь к дискам ибо из 5 отзывов - 4 с негативом типа "сдох через пол года". Эти жили не менее 5 лет. Вернусь в свой офис оттестирую диски.

Диски точно менять, причём все. »
Уже сделано :)

Желательно всю машинку заменить, но если с бюджетом туго, то можно попытаться гальванизировать труп, хотя судя по описанию, ей и так пора на списание, пардон за каламбур. »
С бюджетом и правда напряг. Выделили не много. Поставил шесть таких (http://www.ulmart.ru/goods/318799).

Как правильно сделать массив вы сами знаете, про мониторинг не забудьте. »
Развернул RAID 10 из 4 дисков для БД и RAID1 для системы. С диска на диск файл копируется со скоростью более 350МБ/с. Другие тесты скорости пока не проводил. Разворачивал новую ОСь и СУБД. Настраивал 1С. Поставил утилиту от Intel, о которой писал выше. В настройках можно прописать уведомление на почту при критических ошибках и варнингах.

vadblm
06-08-2014, 23:28
В настройках можно прописать уведомление на почту при критических ошибках и варнингах. »
Это не можно, а нужно сделать и проверить, как работает.

cameron
07-08-2014, 22:13
топиг агонь!
очень жаль, что системные администраторы не умеют считать объёмы массивов.
я таких на работу не беру :)
RAID5 = n-1. где n -кол-во дисков в массиве.
у вас raid5 на 4 дисках, один из которых вышел из строя.

порядок дальнейших действий:
1. бэкап (этот пункт обязателен,у вас SATA диски.
2. установка подходящего диска, ребилд.
3. замена дисков на SAS, если бэкплейн и контроллер это поддерживают (подробнее в мане от материнки, недоинтелы я не знаю).
4. RTFM, RTFM,RTFM до просветления.

vadblm
07-08-2014, 22:19
очень жаль, что системные администраторы не умеют считать объёмы массивов.
я таких на работу не беру
RAID5 = n-1. где n -кол-во дисков в массиве. »
Вы это к чему, капитан?

Tonny_Bennet
08-08-2014, 12:29
Это не можно, а нужно сделать и проверить, как работает. »
Формулируя "можно сделать" я ставил систему, подразумевая что сделаю когда поставлю. Уже сделано.

топиг агонь!
очень жаль, что системные администраторы не умеют считать объёмы массивов. »
Не все.
или это камень в мой огород?

я таких на работу не беру »
Есть открытые вакансии?

1. бэкап (этот пункт обязателен,у вас SATA диски. »
Если представить что массив заполнен полностью то для бекапа потребуется объём на один диск меньше чем размер массива. Не всегда такое есть под рукой.
2. установка подходящего диска, ребилд. »
Чуть выше я писал, что два процента прогресса ребилда заняло около часа. Т.е. весть ребилд в 100 процентов мог занять около 50 часов = чуть более 2-х суток. Плюс ещё не совсем понятно как там остальные диски себя поведут. Экономически целесообразнее было сделать бекап нужного, перенести роли сервера на другой сервер, заменить все диски (предварительно купив их) и собрать новый массив (собрать не 5-й, а 10 RAID т.к. используется MS SQL), перенести роли сервера обратно. Всё вышеописанное стало в 10-12 часов.

3. замена дисков на SAS, если бэкплейн и контроллер это поддерживают (подробнее в мане от материнки, недоинтелы я не знаю). »
Увы, но мать поддерживает только SATA II. SAS контроллер и SAS диски руководство даже не рассматривало.

4. RTFM, RTFM,RTFM до просветления. »
Вы про общевойсковые общеадминские M говорите или имеете ввиду что-то конкретное?

User001
08-08-2014, 12:41
Если представить что массив заполнен полностью то для бекапа потребуется объём на один диск меньше чем размер массива. Не всегда такое есть под рукой.»Объем же небольшой у массива был, на тот же внешний HDD. Другое дело, что все это медленно, а надо как обычно, все и сразу...
Есть открытые вакансии?»+1

cameron
08-08-2014, 13:02
Вы это к чему, капитан? »
это я к тому, что первом посте (то есть в описании проблемы) был ясный и чёткий ответ на вопрос, почему же массив в статусе Degraded.
ответа на этот очевидный вопрос ТС не получил.
это плохо.
Если представить что массив заполнен полностью то для бекапа потребуется объём на один диск меньше чем размер массива. Не всегда такое есть под рукой. »
если представить, что данные на массиве имеют хоть какую-то ценность, то топаем в магазин и берём сохо нас на 1Тб (у вас там 650Гб всего), или USB винт и перегоняем данные туда.
по 1G Ethernet в данном случае быстрее было бы ;)
на чтение деградированная пятёрка почти не проседает.
Чуть выше я писал, что два процента прогресса ребилда заняло около часа. Т.е. весть ребилд в 100 процентов мог занять около 50 часов = чуть более 2-х суток. »
1. ребилд пятёрки всегда медленно.
2. вы, видимо, не убрали нагрузку с массива, вот и результат.
3. есть подозрение, что контроллер без BBU и кеша.
Плюс ещё не совсем понятно как там остальные диски себя поведут. »
это очень верное опасение, особо в разрезе SATA дисков.
Увы, но мать поддерживает только SATA II. SAS контроллер и SAS диски руководство даже не рассматривало. »
для MS SQL не нужно даже рассматривать SATA и бортовые недоконтроллеры.
начинать нужно с этой аксиомы, а всё остальное это уже дурь.

P.S. вакансий нет.

User001
08-08-2014, 13:24
1. ребилд пятёрки всегда медленно.
2. вы, видимо, не убрали нагрузку с массива, вот и результат.
3. есть подозрение, что контроллер без BBU и кеша. »Видел RAID 6 из дисков SAS и SATA, причем разного размера (видимо для "эффективного" использования дисков большей емкости :) )? Такое, когда посыпется, сразу убивают и делают нормальные массивы или ждут ребилда?
P.S. вакансий нет. »T_T




© OSzone.net 2001-2012