Войти

Показать полную графическую версию : [решено] Не собирается RAID10 в NAS Thecus N12000


Falcon99
05-03-2019, 15:55
В NAS Thecus N12000 был собран RAID10 из жестких дисков WD по 4 Тб (WD4000FYYZ-01UL1B0). Два диска вышли из строя, из-за большого количества переназначенных секторов. Купили два на замену. Сначали устновили один, произвели сборку, потом установили еще один. А вот с ним произошла проблема, сборка завершалась ошибкой и RAID не восстанавливался. И тут пришла "светлая" идея. Достали рабочий исправный винт из Raid'a и на его место воткнули который не захотел собираться, на освободившее место поставили проблемный винт после тестирования, при котором была поизведена его очистка. Но RAID так и не захотел собираться, т.е. в Web странице панели управления NAS о состоянии RAID просто пустое место. Вернули все обратно. Но улучшений нет. Прочитал что надо подключится через SSH и посмотреть состояние RAID через mdadm. Посомтрел, но понимания сильно не добаляется. Что делать дальше понять не могу. Прошу совета.
Состояние RAID из консоли Putty:
N12000:~# cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath]
md0 : active raid10 sda2[12] sdl2[11] sde2[14] sdi2[8] sdh2[7] sdg2[6] sdf2[5] sdj2[13] sdd2[3] sdc2[2]
23426222976 blocks super 1.2 64K chunks 2 near-copies [12/10] [U_UUUUUUUU_U]

md50 : active raid1 sda3[12] sde3[14] sdi3[8] sdh3[7] sdg3[6] sdf3[5] sdj3[13] sdd3[3] sdc3[2]
524276 blocks super 1.2 [12/9] [U_UUUUUUUU__]

md10 : active raid1 sdb1[1] sda1[12] sde1[14] sdj1[13] sdi1[8] sdh1[7] sdg1[6] sdf1[5] sdl1[11] sdd1[3] sdc1[2]
2096116 blocks super 1.2 [12/11] [UUUUUUUUUUU_]

unused devices: <none>
N12000:~# mdadm -D /dev/md0
/dev/md0:
Version : 1.2
Creation Time : Wed Jan 15 10:39:13 2014
Raid Level : raid10
Array Size : 23426222976 (22340.99 GiB 23988.45 GB)
Used Dev Size : 3904370496 (3723.50 GiB 3998.08 GB)
Raid Devices : 12
Total Devices : 10
Persistence : Superblock is persistent

Update Time : Tue Mar 5 15:09:31 2019
State : clean, degraded
Active Devices : 10
Working Devices : 10
Failed Devices : 0
Spare Devices : 0

Layout : near=2
Chunk Size : 64K

Name : N12000:0 (local to host N12000)
UUID : 10a5d87c:3a8c2422:f89f1d35:f7cd8007
Events : 1828009

Number Major Minor RaidDevice State
12 8 2 0 active sync /dev/sda2
1 0 0 1 removed
2 8 34 2 active sync /dev/sdc2
3 8 50 3 active sync /dev/sdd2
13 8 146 4 active sync /dev/sdj2
5 8 82 5 active sync /dev/sdf2
6 8 98 6 active sync /dev/sdg2
7 8 114 7 active sync /dev/sdh2
8 8 130 8 active sync /dev/sdi2
14 8 66 9 active sync /dev/sde2
10 0 0 10 removed
11 8 178 11 active sync /dev/sdl2

Falcon99
11-03-2019, 10:48
Запустил принудительно сканирование, ситуация улучшилась:
N12000:~# cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath]
md0 : active raid10 sdb2[15] sda2[12] sdl2[11] sde2[14] sdi2[8] sdh2[7] sdg2[6] sdf2[5] sdj2[13] sdd2[3] sdc2[2]
23426222976 blocks super 1.2 64K chunks 2 near-copies [12/11] [UUUUUUUUUU_U]

md50 : active raid1 sdb3[1] sda3[12] sde3[14] sdi3[8] sdh3[7] sdg3[6] sdf3[5] sdj3[13] sdd3[3] sdc3[2]
524276 blocks super 1.2 [12/10] [UUUUUUUUUU__]

md10 : active raid1 sdb1[1] sda1[12] sde1[14] sdj1[13] sdi1[8] sdh1[7] sdg1[6] sdf1[5] sdl1[11] sdd1[3] sdc1[2]
2096116 blocks super 1.2 [12/11] [UUUUUUUUUUU_]
N12000:~# mdadm -D /dev/md0
/dev/md0:
Version : 1.2
Creation Time : Wed Jan 15 10:39:13 2014
Raid Level : raid10
Array Size : 23426222976 (22340.99 GiB 23988.45 GB)
Used Dev Size : 3904370496 (3723.50 GiB 3998.08 GB)
Raid Devices : 12
Total Devices : 11
Persistence : Superblock is persistent

Update Time : Mon Mar 11 09:02:27 2019
State : clean, degraded
Active Devices : 11
Working Devices : 11
Failed Devices : 0
Spare Devices : 0

Layout : near=2
Chunk Size : 64K

Name : N12000:0 (local to host N12000)
UUID : 10a5d87c:3a8c2422:f89f1d35:f7cd8007
Events : 2681874

Number Major Minor RaidDevice State
12 8 2 0 active sync /dev/sda2
15 8 18 1 active sync /dev/sdb2
2 8 34 2 active sync /dev/sdc2
3 8 50 3 active sync /dev/sdd2
13 8 146 4 active sync /dev/sdj2
5 8 82 5 active sync /dev/sdf2
6 8 98 6 active sync /dev/sdg2
7 8 114 7 active sync /dev/sdh2
8 8 130 8 active sync /dev/sdi2
14 8 66 9 active sync /dev/sde2
10 0 0 10 removed
11 8 178 11 active sync /dev/sdl2
Но новый диск так и не устанавливается.

Jula0071
11-03-2019, 12:31
Покажите вывод

lsblk

df -h

parted -s /dev/sda print
parted -s /dev/sdk print

или если партеда нету, аналогичные команды gdisk:

gdisk -l /dev/sdk
gdisk -l /dev/sda

Ну и ещё lscpu, любопытства ради

PS Вообще-то при Layout : near=2 сохранность данных гарантируется только при отказе одного диска, два – уже как повезёт. Бекап есть?

Falcon99
11-03-2019, 15:56
Сейчас уже запустил spare через
mdadm /dev/md0 --add /dev/sdkи процесс идет:
N12000:~# mdadm --detail /dev/md0
/dev/md0:
Version : 1.2
Creation Time : Wed Jan 15 10:39:13 2014
Raid Level : raid10
Array Size : 23426222976 (22340.99 GiB 23988.45 GB)
Used Dev Size : 3904370496 (3723.50 GiB 3998.08 GB)
Raid Devices : 12
Total Devices : 12
Persistence : Superblock is persistent

Update Time : Mon Mar 11 15:43:10 2019
State : clean, degraded, recovering
Active Devices : 11
Working Devices : 12
Failed Devices : 0
Spare Devices : 1

Layout : near=2
Chunk Size : 64K

Rebuild Status : 46% complete

Name : N12000:0 (local to host N12000)
UUID : 10a5d87c:3a8c2422:f89f1d35:f7cd8007
Events : 2824035

Number Major Minor RaidDevice State
12 8 2 0 active sync /dev/sda2
15 8 18 1 active sync /dev/sdb2
2 8 34 2 active sync /dev/sdc2
3 8 50 3 active sync /dev/sdd2
13 8 146 4 active sync /dev/sdj2
5 8 82 5 active sync /dev/sdf2
6 8 98 6 active sync /dev/sdg2
7 8 114 7 active sync /dev/sdh2
8 8 130 8 active sync /dev/sdi2
14 8 66 9 active sync /dev/sde2
16 8 160 10 spare rebuilding /dev/sdk
11 8 178 11 active sync /dev/sdl2
Вывод данных:
N12000:~# lsblk
-sh: lsblk: command not found
N12000:~# df -h
Filesystem Size Used Available Use% Mounted on
/dev/root 124.0M 47.0M 76.9M 38% /
tmpfs 3.9G 79.1M 3.8G 2% /dev/shm
tmpfs 3.9G 79.1M 3.8G 2% /var
/dev/loop0 802.2M 71.4M 730.8M 9% /rom
/dev/loop1 7.3M 7.3M 0 100% /img
/dev/loop2 8.3M 8.3M 0 100% /usr/lib64
/dev/loop3 256.0K 256.0K 0 100% /usr/share/zoneinfo
/dev/loop4 55.0M 55.0M 0 100% /opt
/dev/sdaaa4 22.9M 385.0K 22.5M 2% /syslog
/dev/sdaaa2 22.9M 841.0K 22.1M 4% /etc
/dev/md50 507.3M 248.0K 507.1M 0% /raidsys/0
/dev/md0 21.7T 15.5T 6.3T 71% /raid0
N12000:~# parted -s /dev/sda print
-sh: parted: command not found

N12000:~# gdisk -l /dev/sda
GPT fdisk (gdisk) version 0.6.9

Partition table scan:
MBR: protective
BSD: not present
APM: not present
GPT: present

Found valid GPT with protective MBR; using GPT.
Disk /dev/sda: 7814037168 sectors, 3.6 TiB
Logical sector size: 512 bytes
Disk identifier (GUID): 3E323482-854C-44C2-AA80-3DEA7AB5EBC4
Partition table holds up to 128 entries
First usable sector is 34, last usable sector is 7814037134
Partitions will be aligned on 2048-sector boundaries
Total free space is 50797 sectors (24.8 MiB)

Number Start (sector) End (sector) Size Code Name
1 2048 4196351 2.0 GiB FD00 Linux RAID
2 5244928 7813988351 3.6 TiB FD00 Linux RAID
3 4196352 5244927 512.0 MiB FD00 Linux RAID

N12000:~# gdisk -l /dev/sdk
GPT fdisk (gdisk) version 0.6.9

Partition table scan:
MBR: not present
BSD: not present
APM: not present
GPT: not present

Creating new GPT entries.
Disk /dev/sdk: 7814037168 sectors, 3.6 TiB
Logical sector size: 512 bytes
Disk identifier (GUID): 0F1D4F6F-4F6D-4999-9278-3CA766608B84
Partition table holds up to 128 entries
First usable sector is 34, last usable sector is 7814037134
Partitions will be aligned on 2048-sector boundaries
Total free space is 7814037101 sectors (3.6 TiB)

Number Start (sector) End (sector) Size Code Name
N12000:~# gdisk -l /dev/sda
GPT fdisk (gdisk) version 0.6.9

Partition table scan:
MBR: protective
BSD: not present
APM: not present
GPT: present

Found valid GPT with protective MBR; using GPT.
Disk /dev/sda: 7814037168 sectors, 3.6 TiB
Logical sector size: 512 bytes
Disk identifier (GUID): 3E323482-854C-44C2-AA80-3DEA7AB5EBC4
Partition table holds up to 128 entries
First usable sector is 34, last usable sector is 7814037134
Partitions will be aligned on 2048-sector boundaries
Total free space is 50797 sectors (24.8 MiB)

Number Start (sector) End (sector) Size Code Name
1 2048 4196351 2.0 GiB FD00 Linux RAID
2 5244928 7813988351 3.6 TiB FD00 Linux RAID
3 4196352 5244927 512.0 MiB FD00 Linux RAIDN12000:~# lscpu
-sh: lscpu: command not found
Бэкапа нет, просто нет столько свободного места для резервного копирования, но данные вроде доступны.

Jula0071
11-03-2019, 16:10
mdadm /dev/md0 --add /dev/sdk »
Ой неверно. Там же три массива, а не один. Помимо массива с данными ещё два, скорее всего под свап и под систему, из-за кастрированности тамошнего линукса мне так и не удалось выяснить, что для чего.
Нужно было скопировать таблицу разделов например с /dev/sda и собирать все три массива.

sgdisk /dev/sda -R /dev/sdk
sgdisk -G /dev/sdk
mdadm --manage /dev/md10 -a /dev/sdk1
mdadm --manage /dev/md50 -a /dev/sdk3
mdadm --manage /dev/md0 -a /dev/sdk2

Falcon99
11-03-2019, 16:50
Хреново. Остается дождаться результата spare rebuilding. И надеятся, что не станет совсем плохо. Если не будет хорошо, то тогда прийдется пометить его failed. Потом попробовать очистить, и уже потом попробую скопировать структуру раздела и сделать его присоединение заново. Кстати, а копироваться структуру можно с любого раздела, или надо сначала выястить кому он будет зеркалом?

Jula0071
11-03-2019, 17:05
И надеятся, что не станет совсем плохо. »
Не должно, остальные два массива RAID 1 и одним зеркалом из 12-ти больше, одним меньше – невелика беда. С другой стороны, фиг знает, что там наворотили разработчики этого фикуса. Например, как их софт к этому отнесётся, будет ли загружаться.
Кстати, а копироваться структуру можно с любого раздела »
Копируется таблица разделов физического диска. Всё равно какого из, главное чтоб рабочего (его разделы есть в списке mdstat всех трёх массивов). И ещё, забыл сказать, для чего sgdisk -G /dev/sdk – для перезаписи GUID разделов рандомом, чтоб не было копией донора (это смутит mdadm).

Почему говорил про бекап – я бы переделал массив, пожертвовав объёмом в сторону надёжности. Но для этого надо где-то данным перебомжевать...

Falcon99
11-03-2019, 17:08
Значит буду искать место, насколько я понимаю, лучше сделать RAID 10 на 10 дисков и два добавить для hot spare?

Jula0071
11-03-2019, 17:15
лучше сделать RAID 10 на 10 дисков и два добавить для hot spare? »

Да, если важна скорость записи, если не очень важна, то можно RAID6 из 10 + 2 hot spare. Да, что там за процессор, мы так и не выяснили, cat /proc/cpuinfo покажите.
Или можно сделать RAID 10 c Layout near=3 или far=3, без хотспейров.
3 вместо 2 - подзеркала строятся из трёх дисков каждое.
Для понимания near-far http://www.ilsistemista.net/index.php/linux-a-unix/35-linux-software-raid-10-layouts-performance-near-far-and-offset-benchmark-analysis.html?start=1

Falcon99
11-03-2019, 17:31
Увы RAID так и не восстановился. Система высветила:

The RAID [RAID] on system [N12000] is suffering from severe disk problem.
RAID is damaged. Unfortunately, the data in RAID are lost.
Please solve the disk problem (e.g. replacing with a new hard disk).
RAID can be re-initialized later by an administrator.


Please be aware of the event(s) above. Also if necessary, please react to the
event(s).

N12000:~# cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath]
md0 : active raid10 sdk[16](F) sdb2[15] sda2[12] sdl2[11](F) sde2[14] sdi2[8] sdh2[7] sdg2[6] sdf2[5] sdj2[13] sdd2[3] sdc2[2]
23426222976 blocks super 1.2 64K chunks 2 near-copies [12/10] [UUUUUUUUUU__]

md50 : active raid1 sdb3[1] sda3[12] sde3[14] sdi3[8] sdh3[7] sdg3[6] sdf3[5] sdj3[13] sdd3[3] sdc3[2]
524276 blocks super 1.2 [12/10] [UUUUUUUUUU__]

md10 : active raid1 sdb1[1] sda1[12] sde1[14] sdj1[13] sdi1[8] sdh1[7] sdg1[6] sdf1[5] sdd1[3] sdc1[2]
2096116 blocks super 1.2 [12/10] [UUUU_UUUUUU_]

unused devices: <none>
N12000:~# mdadm --detail /dev/md0
/dev/md0:
Version : 1.2
Creation Time : Wed Jan 15 10:39:13 2014
Raid Level : raid10
Array Size : 23426222976 (22340.99 GiB 23988.45 GB)
Used Dev Size : 3904370496 (3723.50 GiB 3998.08 GB)
Raid Devices : 12
Total Devices : 12
Persistence : Superblock is persistent

Update Time : Mon Mar 11 17:21:25 2019
State : clean, FAILED
Active Devices : 10
Working Devices : 10
Failed Devices : 2
Spare Devices : 0

Layout : near=2
Chunk Size : 64K

Name : N12000:0 (local to host N12000)
UUID : 10a5d87c:3a8c2422:f89f1d35:f7cd8007
Events : 2824150

Number Major Minor RaidDevice State
12 8 2 0 active sync /dev/sda2
15 8 18 1 active sync /dev/sdb2
2 8 34 2 active sync /dev/sdc2
3 8 50 3 active sync /dev/sdd2
13 8 146 4 active sync /dev/sdj2
5 8 82 5 active sync /dev/sdf2
6 8 98 6 active sync /dev/sdg2
7 8 114 7 active sync /dev/sdh2
8 8 130 8 active sync /dev/sdi2
14 8 66 9 active sync /dev/sde2
10 0 0 10 removed
11 0 0 11 removed

11 8 178 - faulty spare /dev/sdl2
16 8 160 - faulty spare /dev/sdk

Насколько я понимаю надо sdk метить failed. А потом делать:
sgdisk /dev/sda -R /dev/sdk
sgdisk -G /dev/sdk
mdadm --manage /dev/md10 -a /dev/sdk1
mdadm --manage /dev/md50 -a /dev/sdk3
mdadm --manage /dev/md0 -a /dev/sdk2
P.s. Проц там хороший: Intel(R) Xeon(R) CPU X3470 @ 2.93GHz

Jula0071
11-03-2019, 17:52
State : clean, FAILED »
Всё, бобик сдох. Не осталось живых копий, видимо копия sdk жила на sdl2.
Единственно, что можно попробовать, да, правильно переразбить sdk и попытаться сначала оживить sdl2
mdadm --manage /dev/md0 -a /dev/sdl2
CPU X3470 @ 2.93GHz »
Старьё. AES NI нету, RAID 6 я б не стал на нём делать.

Falcon99
11-03-2019, 17:56
Блин, RAID почемуто занят:
N12000:~# mdadm --manage /dev/md0 -a /dev/sdl2
mdadm: Cannot open /dev/sdl2: Device or resource busyP.s. Значит отсается только RAID 10 на 6-ть дисков и 2 диска на Hot Spare.

После перезагрузки NAS, он стал пытаться собрать RAID из имеющихся.
N12000:~# mdadm --detail /dev/md0
/dev/md0:
Version : 1.2
Creation Time : Wed Jan 15 10:39:13 2014
Raid Level : raid10
Array Size : 23426222976 (22340.99 GiB 23988.45 GB)
Used Dev Size : 3904370496 (3723.50 GiB 3998.08 GB)
Raid Devices : 12
Total Devices : 11
Persistence : Superblock is persistent

Update Time : Mon Mar 11 17:59:41 2019
State : clean, degraded
Active Devices : 11
Working Devices : 11
Failed Devices : 0
Spare Devices : 0

Layout : near=2
Chunk Size : 64K

Name : N12000:0 (local to host N12000)
UUID : 10a5d87c:3a8c2422:f89f1d35:f7cd8007
Events : 2824216

Number Major Minor RaidDevice State
12 8 2 0 active sync /dev/sda2
15 8 18 1 active sync /dev/sdb2
2 8 34 2 active sync /dev/sdc2
3 8 50 3 active sync /dev/sdd2
13 8 146 4 active sync /dev/sdj2
5 8 82 5 active sync /dev/sdf2
6 8 98 6 active sync /dev/sdg2
7 8 114 7 active sync /dev/sdh2
8 8 130 8 active sync /dev/sdi2
14 8 66 9 active sync /dev/sde2
10 0 0 10 removed
11 8 178 11 active sync /dev/sdl2

И получается NAS поняли что с 12-м диском все нормально и сам добавил его в RAID.

Jula0071
11-03-2019, 18:11
Вот и не трогайте пока.
Вытаскивайте данные, массив реально в одном шаге от смерти

Falcon99
11-03-2019, 18:16
Попробовал сделать как ты указал ранее. Но почему-то sdk не принимает таблицу разделов:
N12000:~# sgdisk -R /dev/sdk /dev/sdl
N12000:~# sgdisk -G /dev/sdk
The operation has completed successfully.
N12000:~# sgdisk -p /dev/sdk
Disk /dev/sdk: 7814037168 sectors, 3.6 TiB
Logical sector size: 512 bytes
Disk identifier (GUID): EA4AF87C-EA21-487A-8D81-5DAAA9DC0CE6
Partition table holds up to 128 entries
First usable sector is 34, last usable sector is 7814037134
Partitions will be aligned on 2048-sector boundaries
Total free space is 7814037101 sectors (3.6 TiB)

Number Start (sector) End (sector) Size Code Name
N12000:~# sgdisk -p /dev/sdl
Disk /dev/sdl: 7814037168 sectors, 3.6 TiB
Logical sector size: 512 bytes
Disk identifier (GUID): 9CF6A81A-7796-4DC0-8839-E141EBBB0C6B
Partition table holds up to 128 entries
First usable sector is 34, last usable sector is 7814037134
Partitions will be aligned on 2048-sector boundaries
Total free space is 50797 sectors (24.8 MiB)

Number Start (sector) End (sector) Size Code Name
1 2048 4196351 2.0 GiB FD00 Linux RAID
2 5244928 7813988351 3.6 TiB FD00 Linux RAID
3 4196352 5244927 512.0 MiB FD00 Linux RAID
Поэтому завтра начну сливать весь массив данных и потом собирать RAID 10 с двумя резервными дисками.




© OSzone.net 2001-2012