Показать полную графическую версию : Периодические перезагрузки сервера, без BSOD'ов
__sa__nya
27-02-2024, 11:46
Доброе время суток. Имеется машина работающая как сервер.
Материнка Gigabyte B360DH3PML-CF
Процессор Intel Core I9 9900K
Оператива DDR4, 128 GB
Диски 2* NVME Samsung MZVLB1T0HBLR 1 TB
1*SATA SSD Micron MTFDDAK1T9TBY, 1.92 TB
1*SATA SSD Toshiba THNSN8960PCSE, 960 GB
Сетевые карты встроенная в материнку сетевуха Intel
дополнительная 10Gbit/sec сетевуха с 2-мя портами для связи с другими серверами в сети Intel 520-2
Хостовая ОС - Windows Server 2019 Standard, в Hyper-V поднята такая же виртуальная ОС. Сервер используется как сервер СУБД (MS SQL Express 2019 ) для большого кол-ва маленьких баз ( 150+ объемом 1-2 GB в среднем).
Основные диски для виртуальной ОС подключены как сквозные.
Ни в хостовой, ни в виртуальной ОС антивирусов нет, доступ из интернета открыт для очень небольшого кол-ва портов, для нескольких IP-адресов.
Проблема: сервер периодически перезагружается, без BSOD'ов, в самое различное время. По журналам системы понятно что сбой идет в хостовой ОС и затем как следствие в виртуальной. Что было сделано, и не дало результата.
1. Заменены процессор, материнка, память на идентичные
2. Обновлена прошивка дисков до последней
3. Обновлена BIOS материнки до последней
4. Неоднократно установлены все обновления Windows
5. Неоднократно проверены SMART и состояние дисков - проблем нет.
6. После замены оперативы новая оператива проверена memtest86+ ( проверка шла 9 часов) - проблем нет.
7. Есть мнение что сервер может перезагружаться потому что оборудование не выдерживает нагрузку. Под проверкой, но скорее всего нет, т.к. перезагрузка бывает в самые разные периоды, в т.ч. в "тихие". Так же, если смотреть на журналы монитора производительности, то постоянной сильной нагрузки на железо нет.
8. Теория с перегревом железа. В разное время запускал Aid'у, в общем температур на мамке и проце выше 80 не наблюдал. При этом непосредственно перед перезагрузками не знаю какая была температура. Но, в моменты, скажем, личных проверок, перегревов не видел.
Что может быть причиной перезагрузок, что еще проверить ? Софтовую причину отметаю т.к. нет BSOD'ов. Может я ошибаюсь, не знаю. Какие идеи ?
Что может быть причиной перезагрузок, что еще проверить ? »
Блок питания?
dmitryst
27-02-2024, 13:34
MS SQL Express 2019 »
обычно хочет память с коррекцией ошибок. Смотрите в логах на предмет ошибок по памяти, если такие есть.
"журналам системы понятно что сбой идет в хостовой ОС"
а что за ошибки-то предшествуют сбою?
__sa__nya
28-02-2024, 07:19
Блок питания? »
Вчера заменили.
"журналам системы понятно что сбой идет в хостовой ОС"
а что за ошибки-то предшествуют сбою? »
В том-то и дело, что ошибок перед перезагрузкой нет. По журналам я имею ввиду, что идет непредвиденная перезагрузка именно хостовой ОС.
Получается на данный момент, единственное что не менялось в сервере, это диски и дополнительная сетевая карта. Но могут ли они быть причиной непредвиденных перезагрузок, без BSOD'ов ? Я такого просто еще не встречал.
а в сторону софтовых проблем не смотрели?
там, напр, утекание памяти?
мож тупо файл виртуальной оси разрастается, пока не займет весь рам, и хостовой негде свое хранить, она падает..
нет возможности запустить виртуалку в окне так, чтоб на экране имелась и хостовая, с каким-нить хоть примитивным индикатором занимаемых ресурсов?
Cereal Keeler
28-02-2024, 15:37
7. Есть мнение что сервер может перезагружаться потому что оборудование не выдерживает нагрузку. »
Вполне возможно. Но раз мониторинга железа у вас нет, то угадайка. Да и софт тоже не мониторите небось? Кто сколько ресурсов сожрал, всё такое...
Блок питания? »
Вчера заменили. »
На какой? И какой был? Понятно, на десктопном железе мониторинг БП вещь редкая, я знаю только одну серию Corsair RMi, где есть хоть какой-то мониторинг.
А так, БП вполне мог уйти в защиту. Во всех остальных вариантах должен быть бсод и запись в журнал событий.
__sa__nya
29-02-2024, 08:10
в сторону софтовых проблем не смотрели? »
Софтовые проблемы обычно оставляют BSOD'ы.
Вполне возможно. Но раз мониторинга железа у вас нет, то угадайка. Да и софт тоже не мониторите небось? Кто сколько ресурсов сожрал, всё такое... »
Так я говорю, было бы в софте дело - были бы BSOD'ы и скорее всего ошибки в журналах событий Система и Приложение, а нет ошибок перед перезагрузками.
Блок питания какой поставили - сервер у хостера, поэтому этот момент не прояснить. Не будут они отвечать на такое. Сказали что заменили.
сервер у хостера?
а как вы уверены, что рассказы про замены железа не туфта?
а как можно быть уверенным даже в том, что уборщица, включая пылесос, не вынула из розетки мешающую железяку? (условно)
Cereal Keeler
01-03-2024, 14:58
Так я говорю, было бы в софте дело - были бы BSOD'ы и скорее всего ошибки в журналах событий Система и Приложение, а нет ошибок перед перезагрузками. »
Мониторинг софта всё же дал бы какие-то наводки. Ну и ещё, если у вас вдруг отваливается системный диск, то даже при бсоде в журнал ничего не запишется. Если только у вас не настроен внешний сервер журналов.
Блок питания какой поставили - сервер у хостера »
Ну то есть вы не знаете, случился ли бсод. Если только не настроен так, чтобы не было автоматической перезагрузки.
Не будут они отвечать на такое. Сказали что заменили. »
Вообще-то у хостера главный интерес - чтобы клиент был доволен, потому на любые вопросы будет отвечать. Иначе клиент уйдёт. Если им пофиг - бегите оттуда. Это помойка.
а как можно быть уверенным даже в том, что уборщица, включая пылесос, не вынула из розетки мешающую железяку? »
Ага. Да и без уборщицы, мало ли сбой питания. Если БП не redundant с питанием по независимым каналам, то и не узнаешь. У меня как-то был случай, разом погасла пачка серверов. Причём, с power redundancy, всё по уму. Паника. Пишу хостеру - оказалось, инженеры в ДЦ перепутали стойки и случайно обесточили нашу. И такое бывает. Но они быстро признали ошибку и всё исправили.
dmitryst
01-03-2024, 15:36
Наверное, не совсем в тему, но напишу... Поставил новый сервер (с БП по 800 заявленных Ватт) на старый UPS, который раньше питал старый сервер с БП по 700Ватт, и началась такая петрушка... Сам время от времени перезагружается, удалось скореллировать со временем отключения питания, точнее, с моментом, когда включается основное питание, и УПС с батарей переходит на него. Что самое странное, если вручную выдернуть вилку из сети, или общим рубильником отключить питание всем серверам, то всё ОК. Если вернуть питание, тоже всё ОК, проблема именно в момент перехода с генератора на "город". Пока что хз, как это устранить - есть три одинаковых модели УПСов, у самого сервера два БП, всё перепробовал, эффекта нет. Упсы на 1500ВА, мониторинг показывает загрузку 15-18%. Может, и у вас что-то подобное в стойке происходит?
Cereal Keeler
01-03-2024, 15:42
Может, и у вас что-то подобное в стойке происходит? »
Всё может быть, мне не нравится поведение хостера, по описанию. Выглядит как что им пофиг, а это ненадлежащее отношение поставщика услуг.
Даже не заикаясь, что держать сервер на десктопном железе без мониторинга и резервирования это хороший шанс влететь в непонятки.
удалось скореллировать со временем отключения питания, точнее, с моментом, когда включается основное питание, и УПС с батарей переходит на него.
время переключения мож слишком длинное?
обычно лимитируют в сколько-то мс..
dmitryst
04-03-2024, 10:36
время переключения мож слишком длинное? »
Да весь прикол, что если руками выключать-включать, то всё как часы работает. Может, во время перехода на "город" напряжение подседает, но на пару мс, котрые УПС "не ловит".
Может, во время перехода на "город" напряжение подседает, но на пару мс, котрые УПС "не ловит". »
ну, там стандартный алгоритм перехода с одного пиатния на другое, и я не знаю, как именно это на плате организовано..
Мож тупо через кондеры, которые должны подавать питание, пока отрабатывает релюшка, а кондеры ссохлись.. Мож еще как, но мыслю именно в длину провала при автомате.
Если есть осциллограф с подключением к компу, можно промерять время провала, наверно..
__sa__nya
06-03-2024, 13:53
а как вы уверены, что рассказы про замены железа не туфта? »
Никак. Здесь только верить на слово приходится.
а как можно быть уверенным даже в том, что уборщица, включая пылесос, не вынула из розетки мешающую железяку? (условно) »
- Слишком часто из розетки вилку вытягивают.
__sa__nya
27-03-2024, 09:55
Здравствуйте. Опять была перезагрузка, без BSOD'ов.
Осталось методом тыка поменять дополнительную сетевую карту и диски. На моем опыте ни то ни то не было причиной перезагрузок, без BSOD'ов. Был ли у кого-то другой опыт ?
dmitryst
27-03-2024, 12:41
Был ли у кого-то другой опыт ? »
Не под виндой, и не с сетевухами от Интел. Да и диски так не дохнут обычно. Как вариант, я бы сменил хостовую ОС, на текущей конфигурации.
Cereal Keeler
27-03-2024, 15:37
Как вариант, я бы сменил хостовую ОС, на текущей конфигурации. »
Вряд ли это поможет, если проблома аппаратная, а всё намекает, что это так и есть. Разве что тот же линукс может что-то в dmesg скинет перед отказом, но надо настраивать remote syslog, чтобы не потерялось. И если проблема с сетевой частью, то и тогда может потеряться.
Осталось методом тыка поменять дополнительную сетевую карту и диски. »
Прошивки ещё можно попробовать обновить, все, какие возможно. Для серверных сетевух это точно можно (и нужно) сделать. Можно также поиграться с настройками hardware offload, вплоть до полного его отключения.
dmitryst
27-03-2024, 18:11
Можно также поиграться с настройками hardware offload, вплоть до полного его отключения. »
тогда уж и MSI/MSIX всякие за компанию.
Вряд ли это поможет, если проблома аппаратная »
вот я и проверил бы. Конечно, ТС никто не заставляет так делать, но тогда проблема так и станется нерешенной.
© OSzone.net 2001-2012
vBulletin v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.