![]() |
Intel RAID5 в состоянии Degraded
Здравствуйте.
Есть сервер. Он далеко и доступ только по RDP. Материнка Intel S5500BC. не мною Развернут RAID5 из трёх дисков. На сервере крутится MS SQL с несколькими базами 1С. Сотрудники начали жаловаться на тормоза в работе. Зашёл в монитор ресурсов - там было 100 процентов активного времени использования дисков. Поставил утилиту от Intel RAID Web Console 2. Увидел, что логический массив в состоянии Degraded, все физические диски Online. Ниже текстовый вариант конфигурации: Что меня смущает: в этой программке я не вижу причины почему массив перешёл в состояние Degraded. Не вижу смарта дисков и их ошибок. Также в сети да и в мануале говорится о пункте меню Operations. У меня почему-то такого пункта в ПО нет. Может быть так, что ПО не стыкуется с контроллером, контроллером, что-то не включено в BIOS контроллера. |
Предположу, что контроллер потерял полудохлый диск, но потом опять подцепил и сейчас идёт ребилд. По идее, об этом должно сообщаться в мониторинге, но к сожалению, я не знаком с подходящим софтом для этого в Windows. Но картина как раз такая, когда ребилдится RAID5.
Во всяком случае, сервер нужно переделывать, RAID5, да ещё всего на 3 дисках при серьёзном использовании дисковой подсистемы, это выстрел в ногу. И бэкап делайте незамедлительно, если ещё не сделали! |
Цитата:
|
Цитата:
Цитата:
Цитата:
|
Для инофрмации. Согласовал с руководством замену всего дискового массива и развёртывание двух логических томов для баз данных RAID10 и для системы RAID1. Позвонил айтишнице и попросил узнать сколько влезает дисков в корзину. Она сказала, что там сейчас установлено пять и есть место для шестого. Зашёл ещё раз в утилиту конфигурирования. Там видны уже четыре диска, один в состоянии offline.
P.S. Командировка и бессонная ночь впереди. |
Цитата:
Раз так, я бы не рисковал, поменял всю железку, а не ограничился перестройкой массива. А эту на диагностику и может поживёт ещё. Цитата:
Цитата:
Цитата:
|
Цитата:
В корзине стоит пять дисков. Система видела 3. Как из RAID5 убрать два диска и система останется рабочей я не знаю, но у меня работает. Поправил шлейфы в корзине; система увидела 5. Из новеньких: один оффлайн, второй Unconfigured Good. Что-то мне кажется, что про последнего забыли, когда массив собирали. Или специально оставили про запас. Итого RAID5 из 4-х дисков и один не в массиве. При запуске сервера утилита конфигурирования RAID говорит, что всё плохо и предлагает сделать ребилд. Прождал 15 минут, даже на 1 процент прогресс не сдвинулся. Отменил. Перезапустил сервер. Попробовал диск из оффлайн перевести в онлайн (из под Windows). Система стала безбожно виснуть. Потом диск снова перешёл в оффлайн. Скорее всего это и есть мой косячный винт. Но как его определить в корзине не знаю. Она без индикации и понять кто есть кто не получится. Думал убрать сбойный винт и добавить в массив нормальный, потом запустить ребилд. Боязно что не поднимется. Решение о замене дисков на новые уже принято руководством и следующая ночь будет посвящена именно этому. |
Цитата:
Цитата:
|
Цитата:
Цитата:
Цитата:
Попробую развернуть сервер 1С + MS SQL на обычном компе. Пришёл утром. На сервере синий экран и траблы с дисками. |
Цитата:
|
Цитата:
|
Цитата:
Цитата:
А основную машинку нужно лечить серьёзно, узнать почему диски потерялись, почему нашлись после перетыка (оксил на контактах? полудохлые кондёры на контроллере? хз). Диски точно менять, причём все. Желательно всю машинку заменить, но если с бюджетом туго, то можно попытаться гальванизировать труп, хотя судя по описанию, ей и так пора на списание, пардон за каламбур. Как правильно сделать массив вы сами знаете, про мониторинг не забудьте. |
Цитата:
Цитата:
Цитата:
Цитата:
Цитата:
|
Цитата:
|
топиг агонь!
очень жаль, что системные администраторы не умеют считать объёмы массивов. я таких на работу не беру :) RAID5 = n-1. где n -кол-во дисков в массиве. у вас raid5 на 4 дисках, один из которых вышел из строя. порядок дальнейших действий: 1. бэкап (этот пункт обязателен,у вас SATA диски. 2. установка подходящего диска, ребилд. 3. замена дисков на SAS, если бэкплейн и контроллер это поддерживают (подробнее в мане от материнки, недоинтелы я не знаю). 4. RTFM, RTFM,RTFM до просветления. |
Цитата:
|
Цитата:
Цитата:
или это камень в мой огород? Цитата:
Цитата:
Цитата:
Цитата:
Цитата:
|
Цитата:
Цитата:
|
Цитата:
ответа на этот очевидный вопрос ТС не получил. это плохо. Цитата:
по 1G Ethernet в данном случае быстрее было бы ;) на чтение деградированная пятёрка почти не проседает. Цитата:
2. вы, видимо, не убрали нагрузку с массива, вот и результат. 3. есть подозрение, что контроллер без BBU и кеша. Цитата:
Цитата:
начинать нужно с этой аксиомы, а всё остальное это уже дурь. P.S. вакансий нет. |
Цитата:
Цитата:
|
Цитата:
Т.к. в этом подразделении зимой пару раз выключали свет и сервер перевозили во временный офис - тряска и тому подобное могло повлиять на контакты (а может и на диски). Цитата:
Цитата:
Цитата:
Цитата:
Цитата:
Цитата:
Как говорится: скупой платит дважды, тупой трижды, а ты, баран, будешь платить всегда! Пока не могу донести сию истину до руководства Цитата:
|
Цитата:
наверно развалить и сделать пару других. |
Цитата:
|
Цитата:
окай. объём массива указанного как degraded 695.695 GB, а это, сюрприз, 231.898 GB *3. идём дальше? массив жив, но деградирован, а формула рассчёта райд5 это n-1 (повторяюсь), отсюда вывод - массив состоял из 4-х дисков, один из которых вышел строя. ещё один не умеющий считать массивы? :) |
Цитата:
|
Приехали диски. Протестировал сбойный на битые секторы.
Такое количество bad-секторов может быть обусловлено проблемой контроллера диска, прошивкой или ещё чем-то? Или у диска действительно 99% поверхности просто нечитабельны? Проверяем остальные диски. Они в целом нормальные: смарт зелёный, бед-секторов нет. |
Tonny_Bennet,
Цитата:
|
Цитата:
|
Цитата:
ставите в сервер, собираете raid5 или 6 (главное чтобы с CRC), и iometer'ом гоняете пару суток. |
Intel - не Adaptec.
вечное теряние рабочих винтов и внеплановое переключение на любые другие по объему. На новелле такого не было... Там даже создавалась область диска для замещения бэдбдлоков. А уникальные технологии новеля щас пытаются реализовать аппаратно, но малоуспешно! RAID наиболее удачно реализовывал Adaptec, Интелу долго курить до этого! Для нормального сервака на интеле не суйте много одинаковых помимо RAID винтов и включайте мыльное оповещение админа! Да и то не факт! Порой, софтварный лучше! Хотите надёжку: Либо 5+1, либо иное, но без железки интела! Щыт ещё тот! 5, 6, 0+1 - круто! но, если хоть один сдохнет, на интеле - не восстановите, только чз PE, отключив RAID, да и то не факт НЕ умеют, короче! Даже то, что любой сказёывый адаптек мог бы! Пока не сталкивался со сбоями с САСовскими винтами, но этож САТАСКАЗЗИ! Поумнее винты. Поумнее контроллеры. Кричит контроллер винта заранее! |
А интел что? Восстановить RAID?
А как, даже не спрашивает, козил. Для него нужно вешать резервный пустой винт, и остальные меньшего объёма, чтоб не дай Тэнгри он их не подключил к рэйду! А интел что? Восстановить RAID? А как, даже не спрашивает, козил. Для него нужно вешать резервный пустой винт, и остальные меньшего объёма, чтоб не дай Тэнгри он их не подключил к рэйду! И ессно, оповещение админа, поскольку отключает он винты не физически, а логически. Чем лучше софтварного? Софтварный, я думаю, стабильнее. Даже мастдайный! Либо контроллер интегрированный от Adaptec, но это на серверных матерях.... Внешний не рекомендую.... Либо софтверный. Либо на никсах сетевой. Оппонентов спрошу: пытались восстанавливать? |
LSI - контроллеры хуже интела даже, к тому же младшая линейка даже не имеет расширения БИОСа, т.е. не поддерживает загрузку с массива.
Стабильности - минимум! Кэш - слабо семафорится многоядерными и особливо виртуализированными системами. Живут своей жистью! Хотите потерять частично или полностью данные - выбирайте! Частичная потеря - бзик этих! Используйте шифрование ФС с проверкой, но это не для быстрых серверов! Это, походу, предшественник интела.... На адаптеке диагностировать и/или восстановить любой рейд на уровне биоса- как два байта переслать! попробуйте такое сделать предсказуемо по Crtl-I! |
Итог: Либо нормальный железный сервак, либо софтверный рэйд!
Если, конечно, вы - штатник, можно и дешёвый геммор под регулярным наблюдением и оповещением. но быстро устанете.... |
Цитата:
Цитата:
Цитата:
Цитата:
Цитата:
Цитата:
Цитата:
Цитата:
адаптеки (особенно младшие), как контроллеры, откровенный треш. старшие - лучше, но тоже не фонтан. немного истории для, возможного, понимания: раньше, лет 13-15 назад Dell делал всё на адаптеке. сейчас - нет. LSI и только LSI. причины этого в том, что глюки у адаптеков очень и очень весёлые. |
Время: 07:04. |
Время: 07:04.
© OSzone.net 2001-