[решено] Восстановление RAID 50 на HP storageworks msa2000

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)

- Накопители (SSD, HDD, USB Flash) (http://forum.oszone.net/forumdisplay.php?f=53)

- - [решено] Восстановление RAID 50 на HP storageworks msa2000 (http://forum.oszone.net/showthread.php?t=321275)

Восстановление RAID 50 на HP storageworks msa2000

Друзья! Имеется хранилище hp storageworks msa2000, на нем RAID 50: 10 SAS винтов по 300Gb. Вчера два винта ушли в аут (еще не успели посмотреть что именно с ними), соответственно хранилище в дауне.
У меня вопрос в целесообразности восстановления через raid reconstructor на отдельном сервере (8 слотов сасовских, один под систему отдадим, 6 воткнем дисков, с четырех если получится снимим образы, для того, чтобы в reconstructor отдать) или нет смысла? как крайнюю меру я так понимаю вставить два новых диска и посмотреть сможет ли ребилднуться рейд...

pilotoff, Наш форум слабоват для таких задач :) вам сюда надо. По поводу данных, лучше обратится к профессионалам, то есть в компанию по восстановлению данных.

Спасибо! Не знал про такой форум, обращусь!
А данные у нас специфичные, не можем мы обращаться никуда:))) все сами)

Цитата:

Цитата pilotoff

. Вчера два винта ушли в аут (еще не успели посмотреть что именно с ними), соответственно хранилище в дауне. »

одновременный выход из строя двух дисков SAS это что-то из уровня фантастики.

Цитата:

Цитата pilotoff

посмотреть сможет ли ребилднуться рейд... »

не сможет.
50 допускает выход из строя одного диска.

Цитата:

Цитата pilotoff

А данные у нас специфичные, не можем мы обращаться никуда)) все сами) »

тогда выньте из бэкапа.

считаю, что кустарные попытки собрать данные из дисков, которыми рулила СХД (а это СХД, а не DAS) через свою логику могут только навредить.
идите в DataRecovery или R-Lab. стоить будет много.

Цитата:

Цитата cameron

одновременный выход из строя двух дисков SAS это что-то из уровня фантастики. »

Вероятнее всего один вышел из строя раньше, а заметили это когда второй полетел, hot spare никто не догадался сделать.

Цитата:

Цитата Ment69

а заметили это когда второй полетел, hot spare никто не догадался сделать. »

это больше похоже на правду.
впрочем, никто не догадался ещё и мониторить СХД. ну и видимо про бэкапы тоже лучше не спрашивать ;)

Цитата:

Цитата cameron

никто не догадался ещё и мониторить СХД »

Да pilotoff, об этом мало что знает, также он ничего наверняка не понял про слова из трех букв

Цитата:

Цитата cameron

это СХД, а не DAS »

и вообще судя по всему он в тему не вернется, будет тринити терроризировть :)

Цитата:

Цитата Ment69

Цитата cameron:
никто не догадался ещё и мониторить СХД »
Да pilotoff, об этом мало что знает, также он ничего наверняка не понял про слова из трех букв
Цитата cameron:
это СХД, а не DAS »
и вообще судя по всему он в тему не вернется, будет тринити терроризировть »

Нет, почему же, зашел:) Жаль только, что вы начали вполне конструктивно, а продолжили диалог весьма негативно. Знаю я много слов из трех букв, включая эти, а даже если бы не знал, мозгов на гугл хватает, поэтому я и здесь, чтобы изучить, понять и решить проблему:)

Цитата:

Цитата Ment69

Вероятнее всего один вышел из строя раньше, а заметили это когда второй полетел, hot spare никто не догадался сделать. »

Вероятнее всего так и есть и я с этим не спорю, но схд у нас действительно никто не мониторит, так как их слишком много, настроена система оповещений, но в данном случае возник сбой в виду переезда почтового сервера. А из бекапа то, что можно взяли, но не все данные можно адекватно бекапить. У нас ведутся вычисления и их результаты постоянно бекапить нет целесообразного варианта.

Цитата:

Цитата cameron

считаю, что кустарные попытки собрать данные из дисков, которыми рулила СХД (а это СХД, а не DAS) через свою логику могут только навредить.
идите в DataRecovery или R-Lab. стоить будет много. »

А вот это я считаю наиболее интересным, расскажите в чем принципиальная разница кустарных попыток, кроме знаний (всего лишь временной ресурс для технически грамотных специалистов) и опыта (тут бесспорно мы в минусе по сравнению с лабораториями) при условий огромных ресурсов во всем остальном? я не выделываюсь, просто в конторах по восстановлению не магией занимаются, а пользуются вполне конкретными программно-аппаратными решениями, которые вполне реально освоить (время...) Да, это не напрямую наш профиль (мы всего лишь программисты:)), но специфика обуславливает, что все проблемы приходиться решать самим...

Цитата:

Цитата pilotoff

У нас ведутся вычисления и их результаты постоянно бекапить нет целесообразного варианта »

Hotspare то можно было сделать? Если данные важны, один диск на MSA не так дорого, тогда бы все было бы нормально. Кстати не обижайтесь на меня я не пытался вас оскорбить или обидеть. Если у вас СХД несколько мониторинг обязательно должен быть!

Цитата:

Недостатки массива RAID 50
Сложная реализация, необходимо минимум 6 дисков, а для хорошей производительности желательно не менее 8-ми. Поддержка в контроллерах встречается довольно редко.
При выходе из строя хотя бы одного диска массив перейдет в критический режим (Degrade), при этом скорость работы значительно понизится.
Если восстанавливать штатную работу RAID средствами контроллера методом Rebuild или Reconstruction, то непрерывная критическая нагрузка в течение часов (а может быть и дней), может привести к поломке еще одного или больше дисков. В этом случае восстановить данные RAID 50 массива стандартным способом не получится.

Цитата:

Цитата Ment69

Кстати не обижайтесь на меня я не пытался вас оскорбить или обидеть »

Все нормально;)
Насчет hotspare равно как и насчет RAID 50 - да, согласен - это архитектурная ошибка человека, вводившего 4 года назад схд в эксплуатацию, сейчас вводим уже более грамотно, но редко доходят руки что-то менять в давно вставших хранилищах и серверах.

Цитата:

Цитата Ment69

Если у вас СХД несколько мониторинг обязательно должен быть! »

Согласен, но с учетом большого парка хранилищ разных возрастов, моделей и производителей, задача удобного мониторинга кажется не совсем тривиальной задачей, хотя спорить не буду - изучением данного вопроса не занимались:) везде есть свои недоработки и у нас их масса и оправданий быть не может:) но основная задача - прежде всего, на нее и уходит большая часть всех ресурсов:)

Цитата:

Цитата pilotoff

основная задача - прежде всего, на нее и уходит большая часть всех ресурсов »

Если у вас такой парк техники, должен быть человек, отвечающий за неё, это позволит спокойно работать и не отвлекаться специалистам по вашей задаче на решение подобных проблем.
Решения для мониторинга разных систем есть

1. В спан 50 из строя могут выйти 2 диска без потери данных, однако в разных raid 5. В вашем случае, очевидно, это были диски одной группы, и действительно, вероятнее всего диски из строя выходили поочередно. Одновременного выхода из строя 2х дисков никогда не наблюдал, сталкивался только с ситуацией нарушения логики в scsi-кольце на VNX5100, когда SP посчитали что диск 18 оказался в слоте 17, а диск 17 - в слоте 18, но это, видимо, не ваш случай. Лирическое отступление: при таком количестве дисков нет особого смысла использовать спан типы (особенно если не нюансы работы не знакомы), используйте классические рэйды.
2. Задачами восстановления данных на вендроных СХД мид рэйнджа и выше (может и для low-end тоже) занимается recovery team того вендора, который эту СХД произвел (точно верно для EMC, но, полагаю, подход у других производителей такой же). У сервис инженеров recovery team есть доступ к инструментам (если не для конкретного массива, то для конкретной линейки) и менеджмент серверам СХД, которого нет даже у авторизованных инженеров компаний-интеграторов. Такие процедуры не покрываются стандартной тех. поддержкой и обычно стоят нормальное количество тугриков (одной организации с тем самым VNX5100 предлагали за 3к вечнозеленых). Если такой процедурой занимается кто-то кроме инженера recovery team и об этом становится известно, обычно гарантия на данную СХД отзывается, и вендор, возможно, откажется в будущем обслуживать данную СХД даже за деньги. Последнее предложение верно, если этот кто-то сторонний имел доступ к менеджмент-серверу массива.

Имел скромный опыт работы с менеджмент сервером CLARiiON CX4 (это кстати windows server 2003r2 sic!, кстати на VNX`ах это тоже винда), до которого добирался с песнями и плясками с помощью секретных подпольных знаний, которыми поделились со мной ниндзи. Делал я это только потому, что CLARiiON`ы сняты с поддержки (EOL был объявлен давно) и сотрудники EMC заявили что им просто запрещено обслуживать данный массив даже за деньги. Стоит ли говорить, что успеха в своем предприятии я не добился, т.к. низкоуровневые инструменты требуют тучи паролей, которых нет ни у кого кроме recovery team и совершенно не документированы, а точнее, документация доступна только все тем же инженерам команды восстановления. На сколько мне известно, recovery team это последний уровень саппорта для СХД, т.е. дальше кейсы эскалировать некуда.

Я искренне не верю, что вам удастся восстановить данные с вашего LUN`а, но если и удастся, то на это может быть только пара причин: либо вам поможет инженер из этой самой recovery team, либо у HP для СХД данного сегмента не такой нацистский подход как у EMC и вы найдете документацию и низкоуровневые инструменты для такой процедуры (вот в это я как раз не верю).

Адекватным ответом на такие проблемы является мониторинг и резервное копирование.

Цитата:

Цитата nokogerra

Я искренне не верю, что вам удастся восстановить данные с вашего LUN`а, но если и удастся, то на это может быть только пара причин: либо вам поможет инженер из этой самой recovery team, либо у HP для СХД данного сегмента не такой нацистский подход как у EMC и вы найдете документацию и низкоуровневые инструменты для такой процедуры (вот в это я как раз не верю). »

Спасибо за веру:) Я не знаю насчет recovery team - поддержка у нас давно закончилась, смысла обращаться никто не видит. Документацию найти действительно очень сложно, а вот что вы подразумеваете под низкоуровневыми инструментами я не понимаю.
Если образы сняты, какие нужны инструменты? если нужен hex-редактор, время и постепенно собираемые знания?) Подводя итог: данные восстановлены:) 3 недели работы это долго, но это в виду отсутствия знаний. Все восстановлено в R-studio, в которой собран рейд, он нестандартный, но простой.

Цитата:

Цитата pilotoff

а вот что вы подразумеваете под низкоуровневыми инструментами я не понимаю »

я имел в виду инструменты менеджмент сервера СХД, например mlucli, flarecons (для clariion, vnx), для HP это другие инструменты.

Цитата:

Цитата pilotoff

Подводя итог: данные восстановлены 3 »

Это замечательно.