Компьютерный форум OSzone.net  

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)
-   Непонятные проблемы с Железом (http://forum.oszone.net/forumdisplay.php?f=48)
-   -   Периодические перезагрузки сервера, без BSOD'ов (http://forum.oszone.net/showthread.php?t=354987)

__sa__nya 27-02-2024 11:46 3024710

Периодические перезагрузки сервера, без BSOD'ов
 
Доброе время суток. Имеется машина работающая как сервер.

Материнка Gigabyte B360DH3PML-CF
Процессор Intel Core I9 9900K
Оператива DDR4, 128 GB
Диски 2* NVME Samsung MZVLB1T0HBLR 1 TB
1*SATA SSD Micron MTFDDAK1T9TBY, 1.92 TB
1*SATA SSD Toshiba THNSN8960PCSE, 960 GB
Сетевые карты встроенная в материнку сетевуха Intel
дополнительная 10Gbit/sec сетевуха с 2-мя портами для связи с другими серверами в сети Intel 520-2

Хостовая ОС - Windows Server 2019 Standard, в Hyper-V поднята такая же виртуальная ОС. Сервер используется как сервер СУБД (MS SQL Express 2019 ) для большого кол-ва маленьких баз ( 150+ объемом 1-2 GB в среднем).
Основные диски для виртуальной ОС подключены как сквозные.
Ни в хостовой, ни в виртуальной ОС антивирусов нет, доступ из интернета открыт для очень небольшого кол-ва портов, для нескольких IP-адресов.

Проблема: сервер периодически перезагружается, без BSOD'ов, в самое различное время. По журналам системы понятно что сбой идет в хостовой ОС и затем как следствие в виртуальной. Что было сделано, и не дало результата.

1. Заменены процессор, материнка, память на идентичные
2. Обновлена прошивка дисков до последней
3. Обновлена BIOS материнки до последней
4. Неоднократно установлены все обновления Windows
5. Неоднократно проверены SMART и состояние дисков - проблем нет.
6. После замены оперативы новая оператива проверена memtest86+ ( проверка шла 9 часов) - проблем нет.
7. Есть мнение что сервер может перезагружаться потому что оборудование не выдерживает нагрузку. Под проверкой, но скорее всего нет, т.к. перезагрузка бывает в самые разные периоды, в т.ч. в "тихие". Так же, если смотреть на журналы монитора производительности, то постоянной сильной нагрузки на железо нет.
8. Теория с перегревом железа. В разное время запускал Aid'у, в общем температур на мамке и проце выше 80 не наблюдал. При этом непосредственно перед перезагрузками не знаю какая была температура. Но, в моменты, скажем, личных проверок, перегревов не видел.

Что может быть причиной перезагрузок, что еще проверить ? Софтовую причину отметаю т.к. нет BSOD'ов. Может я ошибаюсь, не знаю. Какие идеи ?

NickM 27-02-2024 13:02 3024711

Цитата:

Цитата __sa__nya
Что может быть причиной перезагрузок, что еще проверить ? »

Блок питания?

dmitryst 27-02-2024 13:34 3024712

Цитата:

Цитата __sa__nya
MS SQL Express 2019 »

обычно хочет память с коррекцией ошибок. Смотрите в логах на предмет ошибок по памяти, если такие есть.

bredych 28-02-2024 04:39 3024723

"журналам системы понятно что сбой идет в хостовой ОС"
а что за ошибки-то предшествуют сбою?

__sa__nya 28-02-2024 07:19 3024726

Цитата:

Цитата NickM
Блок питания? »

Вчера заменили.

Цитата:

Цитата bredych
"журналам системы понятно что сбой идет в хостовой ОС"
а что за ошибки-то предшествуют сбою? »

В том-то и дело, что ошибок перед перезагрузкой нет. По журналам я имею ввиду, что идет непредвиденная перезагрузка именно хостовой ОС.

Получается на данный момент, единственное что не менялось в сервере, это диски и дополнительная сетевая карта. Но могут ли они быть причиной непредвиденных перезагрузок, без BSOD'ов ? Я такого просто еще не встречал.

bredych 28-02-2024 09:24 3024729

а в сторону софтовых проблем не смотрели?
там, напр, утекание памяти?
мож тупо файл виртуальной оси разрастается, пока не займет весь рам, и хостовой негде свое хранить, она падает..
нет возможности запустить виртуалку в окне так, чтоб на экране имелась и хостовая, с каким-нить хоть примитивным индикатором занимаемых ресурсов?

Cereal Keeler 28-02-2024 15:37 3024745

Цитата:

Цитата __sa__nya
7. Есть мнение что сервер может перезагружаться потому что оборудование не выдерживает нагрузку. »

Вполне возможно. Но раз мониторинга железа у вас нет, то угадайка. Да и софт тоже не мониторите небось? Кто сколько ресурсов сожрал, всё такое...
Цитата:

Цитата NickM
Блок питания? »

Цитата:

Цитата __sa__nya
Вчера заменили. »

На какой? И какой был? Понятно, на десктопном железе мониторинг БП вещь редкая, я знаю только одну серию Corsair RMi, где есть хоть какой-то мониторинг.
А так, БП вполне мог уйти в защиту. Во всех остальных вариантах должен быть бсод и запись в журнал событий.

__sa__nya 29-02-2024 08:10 3024781

Цитата:

Цитата bredych
в сторону софтовых проблем не смотрели? »

Софтовые проблемы обычно оставляют BSOD'ы.

Цитата:

Цитата Cereal Keeler
Вполне возможно. Но раз мониторинга железа у вас нет, то угадайка. Да и софт тоже не мониторите небось? Кто сколько ресурсов сожрал, всё такое... »

Так я говорю, было бы в софте дело - были бы BSOD'ы и скорее всего ошибки в журналах событий Система и Приложение, а нет ошибок перед перезагрузками.

Блок питания какой поставили - сервер у хостера, поэтому этот момент не прояснить. Не будут они отвечать на такое. Сказали что заменили.

bredych 29-02-2024 13:46 3024799

сервер у хостера?
а как вы уверены, что рассказы про замены железа не туфта?
а как можно быть уверенным даже в том, что уборщица, включая пылесос, не вынула из розетки мешающую железяку? (условно)

Cereal Keeler 01-03-2024 14:58 3024869

Цитата:

Цитата __sa__nya
Так я говорю, было бы в софте дело - были бы BSOD'ы и скорее всего ошибки в журналах событий Система и Приложение, а нет ошибок перед перезагрузками. »

Мониторинг софта всё же дал бы какие-то наводки. Ну и ещё, если у вас вдруг отваливается системный диск, то даже при бсоде в журнал ничего не запишется. Если только у вас не настроен внешний сервер журналов.
Цитата:

Цитата __sa__nya
Блок питания какой поставили - сервер у хостера »

Ну то есть вы не знаете, случился ли бсод. Если только не настроен так, чтобы не было автоматической перезагрузки.
Цитата:

Цитата __sa__nya
Не будут они отвечать на такое. Сказали что заменили. »

Вообще-то у хостера главный интерес - чтобы клиент был доволен, потому на любые вопросы будет отвечать. Иначе клиент уйдёт. Если им пофиг - бегите оттуда. Это помойка.
Цитата:

Цитата bredych
а как можно быть уверенным даже в том, что уборщица, включая пылесос, не вынула из розетки мешающую железяку? »

Ага. Да и без уборщицы, мало ли сбой питания. Если БП не redundant с питанием по независимым каналам, то и не узнаешь. У меня как-то был случай, разом погасла пачка серверов. Причём, с power redundancy, всё по уму. Паника. Пишу хостеру - оказалось, инженеры в ДЦ перепутали стойки и случайно обесточили нашу. И такое бывает. Но они быстро признали ошибку и всё исправили.

dmitryst 01-03-2024 15:36 3024871

Наверное, не совсем в тему, но напишу... Поставил новый сервер (с БП по 800 заявленных Ватт) на старый UPS, который раньше питал старый сервер с БП по 700Ватт, и началась такая петрушка... Сам время от времени перезагружается, удалось скореллировать со временем отключения питания, точнее, с моментом, когда включается основное питание, и УПС с батарей переходит на него. Что самое странное, если вручную выдернуть вилку из сети, или общим рубильником отключить питание всем серверам, то всё ОК. Если вернуть питание, тоже всё ОК, проблема именно в момент перехода с генератора на "город". Пока что хз, как это устранить - есть три одинаковых модели УПСов, у самого сервера два БП, всё перепробовал, эффекта нет. Упсы на 1500ВА, мониторинг показывает загрузку 15-18%. Может, и у вас что-то подобное в стойке происходит?

Cereal Keeler 01-03-2024 15:42 3024872

Цитата:

Цитата dmitryst
Может, и у вас что-то подобное в стойке происходит? »

Всё может быть, мне не нравится поведение хостера, по описанию. Выглядит как что им пофиг, а это ненадлежащее отношение поставщика услуг.
Даже не заикаясь, что держать сервер на десктопном железе без мониторинга и резервирования это хороший шанс влететь в непонятки.

bredych 04-03-2024 09:45 3024981

Цитата:

Цитата dmitryst (Сообщение 3024871)
удалось скореллировать со временем отключения питания, точнее, с моментом, когда включается основное питание, и УПС с батарей переходит на него.

время переключения мож слишком длинное?
обычно лимитируют в сколько-то мс..

dmitryst 04-03-2024 10:36 3024986

Цитата:

Цитата bredych
время переключения мож слишком длинное? »

Да весь прикол, что если руками выключать-включать, то всё как часы работает. Может, во время перехода на "город" напряжение подседает, но на пару мс, котрые УПС "не ловит".

bredych 04-03-2024 18:11 3025007

Цитата:

Цитата dmitryst
Может, во время перехода на "город" напряжение подседает, но на пару мс, котрые УПС "не ловит". »

ну, там стандартный алгоритм перехода с одного пиатния на другое, и я не знаю, как именно это на плате организовано..
Мож тупо через кондеры, которые должны подавать питание, пока отрабатывает релюшка, а кондеры ссохлись.. Мож еще как, но мыслю именно в длину провала при автомате.
Если есть осциллограф с подключением к компу, можно промерять время провала, наверно..

__sa__nya 06-03-2024 13:53 3025100

Цитата:

Цитата bredych
а как вы уверены, что рассказы про замены железа не туфта? »

Никак. Здесь только верить на слово приходится.

Цитата:

Цитата bredych
а как можно быть уверенным даже в том, что уборщица, включая пылесос, не вынула из розетки мешающую железяку? (условно) »

- Слишком часто из розетки вилку вытягивают.

__sa__nya 27-03-2024 09:55 3025933

Здравствуйте. Опять была перезагрузка, без BSOD'ов.
Осталось методом тыка поменять дополнительную сетевую карту и диски. На моем опыте ни то ни то не было причиной перезагрузок, без BSOD'ов. Был ли у кого-то другой опыт ?

dmitryst 27-03-2024 12:41 3025937

Цитата:

Цитата __sa__nya
Был ли у кого-то другой опыт ? »

Не под виндой, и не с сетевухами от Интел. Да и диски так не дохнут обычно. Как вариант, я бы сменил хостовую ОС, на текущей конфигурации.

Cereal Keeler 27-03-2024 15:37 3025957

Цитата:

Цитата dmitryst
Как вариант, я бы сменил хостовую ОС, на текущей конфигурации. »

Вряд ли это поможет, если проблома аппаратная, а всё намекает, что это так и есть. Разве что тот же линукс может что-то в dmesg скинет перед отказом, но надо настраивать remote syslog, чтобы не потерялось. И если проблема с сетевой частью, то и тогда может потеряться.
Цитата:

Цитата __sa__nya
Осталось методом тыка поменять дополнительную сетевую карту и диски. »

Прошивки ещё можно попробовать обновить, все, какие возможно. Для серверных сетевух это точно можно (и нужно) сделать. Можно также поиграться с настройками hardware offload, вплоть до полного его отключения.

dmitryst 27-03-2024 18:11 3025959

Цитата:

Цитата Cereal Keeler
Можно также поиграться с настройками hardware offload, вплоть до полного его отключения. »

тогда уж и MSI/MSIX всякие за компанию.
Цитата:

Цитата Cereal Keeler
Вряд ли это поможет, если проблома аппаратная »

вот я и проверил бы. Конечно, ТС никто не заставляет так делать, но тогда проблема так и станется нерешенной.

__sa__nya 28-03-2024 08:13 3025969

Цитата:

Цитата dmitryst
Не под виндой, и не с сетевухами от Интел. Да и диски так не дохнут обычно. Как вариант, я бы сменил хостовую ОС, на текущей конфигурации. »

Так даже BSOD'ов нет. В хостовой ОС кроме Hyper-V ничего нет.

Цитата:

Цитата Cereal Keeler
Для серверных сетевух это точно можно (и нужно) сделать. Можно также поиграться с настройками hardware offload, вплоть до полного его отключения. »

Попробую "поиграться".

dmitryst 28-03-2024 10:12 3025974

Цитата:

Цитата __sa__nya
Так даже BSOD'ов нет. »

Так я и говорю - не под виндой. Под FreeBSD одна карта так гадила - при нагрузке больше какого-то значения просто вешала всю систему с перезагрузкой, и так по кругу, пока не выключишь. Решилось блокировкой всех "наворотов" (TCP Offload, MSI/MSIX и т.п.) сетевухи в её драйвере (т.е. проблема как бы и не железная....)

Cereal Keeler 28-03-2024 12:13 3025978

Цитата:

Цитата dmitryst
сетевухи в её драйвере (т.е. проблема как бы и не железная....) »

У сетевух серверного класса драйверы примитивные, практически весь рабочий код в прошивке... Собсно и MSI/MSIX тоже про это - жылезка управляет прерываниями, а не драйвер/ядро/цпу. С одной стороны, так быстрее, но с другой могут вылезти race conditions.

dmitryst 28-03-2024 13:08 3025981

Cereal Keeler, я в курсе. "прошивка" всё-таки больше "софт", чем "железо", но могут вылезти глюки от обоих, что бывает отловить достаточно трудно. Так что пусть для начала поотключает всё, а потом посмотрим.
А, PS. можно какой-нибудь zabbix вкарячить, может, повезет и удастся скореллировать перезагрузку с чем-то.

Cereal Keeler 28-03-2024 13:58 3025984

Цитата:

Цитата dmitryst
можно какой-нибудь zabbix вкарячить, может, повезет и удастся скореллировать перезагрузку с чем-то. »

Мониторинг в любом случае необходим, как это сервер да без мониторинга?

dmitryst 28-03-2024 15:22 3025991

Цитата:

Цитата Cereal Keeler
как это сервер да без мониторинга? »

ТС про мониторинг не писал, или я пропустил? ;)

Cereal Keeler 28-03-2024 15:28 3025992

Цитата:

Цитата dmitryst
ТС про мониторинг не писал, или я пропустил? »

Он предпочёл умолчать, из чего можно сделать вывод, что мониторинга нет. Видать, не очень нужный сервер, впрочем, это и по железу понятно. И заказчик готов терпеть периодические отказы, видимо, они обходятся дешевле, чем расходы на нормальное железо, мониторинг, резервирование, SLA и пр.


Время: 00:14.

Время: 00:14.
© OSzone.net 2001-