PDA

Показать полную графическую версию : [решено] Перезагрузки с ntoskrnl.wrong.symbols.exe


goshanecr
04-01-2024, 20:08
Доброго дня уважаемые Спецы!

Посоветуйте пожалуйста, как найти причину периодических перезагрузок сервера.
Итого поциент: Windows 2016 Server x64, работает на виртуалке BHyVe под FreeBSD. Из задач на машине - RDP доступ с запуском клиентской части 1С-ки, которая уже цепляется к 1С серверу на другой машине.
1С - лицензионная, винда не совсем. Хост - AMD Ryzen 2600 + 32GB RAM. Диски на хосте исправные, зазеркалены. Память также исправна, прогонял. Сам хост проблем не испытывает, только виртуалка.
Подскажите, откуда начать копать?
Вот что выдаёт WinDBG минидампа:

Microsoft (R) Windows Debugger Version 10.0.22621.1778 AMD64
Copyright (c) Microsoft Corporation. All rights reserved.


Loading Dump File [C:\Windows\Minidump\010324-15703-01.dmp]
Mini Kernel Dump File: Only registers and stack trace are available


************* Path validation summary **************
Response Time (ms) Location
Deferred SRV*E:\Sym_WinDBG*http://msdl.microsoft.com/download/symbols
Symbol search path is: SRV*E:\Sym_WinDBG*http://msdl.microsoft.com/download/symbols
Executable search path is:
Unable to load image ntoskrnl.exe, Win32 error 0n2
*** WARNING: Unable to verify timestamp for ntoskrnl.exe
*Windows 10 Kernel Version 14393 MP (4 procs) Free x64
Product: Server, suite: TerminalServer
Machine Name:
Kernel base = 0xfffff803`c4497000 PsLoadedModuleList = 0xfffff803`c479ccd0
Debug session time: Wed Jan 3 10:05:15.336 2024 (UTC + 5:00)
System Uptime: 4 days 19:38:40.026
Unable to load image ntoskrnl.exe, Win32 error 0n2
*** WARNING: Unable to verify timestamp for ntoskrnl.exe
*************************************************************************
*Loading Kernel Symbols
.

Press ctrl-c (cdb, kd, ntsd) or ctrl-break (windbg) to abort symbol loads that take too long.
Run !sym noisy before .reload to track down problems loading symbols.

..............................................................
................................................................
........
Loading User Symbols
Loading unloaded module list
.....

************* Symbol Loading Error Summary **************
Module name Error
ntoskrnl The path is not available

You can troubleshoot most symbol related issues by turning on symbol loading diagnostics (!sym noisy) and repeating the command that caused symbols to be loaded.
You should also verify that your symbol search path (.sympath) is correct.
For analysis of this file, run !analyze -v
2: kd> !analyze -v
*******************************************************************************
* *
* Bugcheck Analysis *
* *
*******************************************************************************

CRITICAL_PROCESS_DIED (ef)
A critical system process died
Arguments:
Arg1: ffffb703d27e9800, Process object or thread object
Arg2: 0000000000000000, If this is 0, a process died. If this is 1, a thread died.
Arg3: 0000000000000000, The process object that initiated the termination.
Arg4: 0000000000000000

Debugging Details:
------------------

***** Kernel symbols are WRONG. Please fix symbols to do analysis.


KEY_VALUES_STRING: 1

Key : Analysis.CPU.mSec
Value: 171

Key : Analysis.DebugAnalysisManager
Value: Create

Key : Analysis.Elapsed.mSec
Value: 14671

Key : Analysis.Init.CPU.mSec
Value: 2390

Key : Analysis.Init.Elapsed.mSec
Value: 66876

Key : Analysis.Memory.CommitPeak.Mb
Value: 56


FILE_IN_CAB: 010324-15703-01.dmp

ADDITIONAL_DEBUG_TEXT:
You can run '.symfix; .reload' to try to fix the symbol path and load symbols.

WRONG_SYMBOLS_TIMESTAMP: 64253b6e

WRONG_SYMBOLS_SIZE: 81f000

FAULTING_MODULE: fffff803c4497000 nt

DUMP_FILE_ATTRIBUTES: 0x8
Kernel Generated Triage Dump

BUGCHECK_CODE: ef

BUGCHECK_P1: ffffb703d27e9800

BUGCHECK_P2: 0

BUGCHECK_P3: 0

BUGCHECK_P4: 0

CUSTOMER_CRASH_COUNT: 1

STACK_TEXT:
ffffcb80`b7330dd8 fffff803`c4b17da2 : 00000000`000000ef ffffb703`d27e9800 00000000`00000000 00000000`00000000 : nt+0x15d1c0
ffffcb80`b7330de0 00000000`000000ef : ffffb703`d27e9800 00000000`00000000 00000000`00000000 00000000`00000000 : nt+0x680da2
ffffcb80`b7330de8 ffffb703`d27e9800 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : 0xef
ffffcb80`b7330df0 00000000`00000000 : 00000000`00000000 00000000`00000000 00000000`00000000 ffffb703`d27e9800 : 0xffffb703`d27e9800


STACK_COMMAND: .cxr; .ecxr ; kb

EXCEPTION_CODE_STR: 64253B6E

EXCEPTION_STR: WRONG_SYMBOLS

PROCESS_NAME: ntoskrnl.wrong.symbols.exe

IMAGE_NAME: ntoskrnl.wrong.symbols.exe

MODULE_NAME: nt_wrong_symbols

SYMBOL_NAME: nt_wrong_symbols!64253B6E81F000

FAILURE_BUCKET_ID: WRONG_SYMBOLS_X64_TIMESTAMP_230330-073406_64253B6E_nt_wrong_symbols!64253B6E81F000

OSPLATFORM_TYPE: x64

OSNAME: Windows 10

FAILURE_ID_HASH: {1af12a26-2ab5-d00c-80db-c221ddcf2701}

Followup: MachineOwner
---------

NickM
04-01-2024, 20:23
Файлы дампов приложить можете?

Система за NAT или доступна из глобальной сети? Может происходит попытка эксплуатации уязвимостей? В системные журналы заглядывали?

goshanecr
04-01-2024, 20:42
NickM, добрый день!

Вот прикладываю минидамп.
Система за натом, извне недоступна. Более того, сервер 1С находится в одной с ней подсети, на такой же ОС, и с ним глюков не наблюдается.
В системных журналах ничего подозрительного в окрестностях времени краха системы нет. Только после самой перезагрузки стандартные уведомления о том, что система последний раз перезагрузилась неожиданно и т.п.

NickM
04-01-2024, 23:21
Вот тут есть профильная тема (http://forum.oszone.net/thread-319095-6.html)по указанной ошибке.

Что видно в отладчике:

1. В системе отсутствуют крайние обновления;

2. Упал следующий процесс:
> !process ffffb703d27e9800
PROCESS ffffb703d27e9800
SessionId: none Cid: 02e0 Peb: fbecb45000 ParentCid: 0254
DirBase: 403d15000 ObjectTable: ffffa002b2a38540 HandleCount: <Data Not Accessible>
Image: svchost.exe
VadRoot ffffb703d27e92c0 Vads 150 Clone 0 Private 2746. Modified 57. Locked 0.
DeviceMap ffffa002adc16b20
Token ffffa002b2a61060
ReadMemory error: Cannot get nt!KeMaximumIncrement value.
fffff78000000000: Unable to get shared data
ElapsedTime 00:00:00.000
UserTime 00:00:00.000
KernelTime 00:00:00.000
QuotaPoolUsage[PagedPool] 362744
QuotaPoolUsage[NonPagedPool] 22984
Working Set Sizes (now,min,max) (6638, 50, 345) (26552KB, 200KB, 1380KB)
PeakWorkingSetSize 6530
VirtualSize 2097237 Mb
PeakVirtualSize 2097249 Mb
PageFaultCount 10456
MemoryPriority BACKGROUND
BasePriority 8
CommitCharge 3024

*** Error in reading nt!_ETHREAD @ ffffb703d2c00080



Код завершения:
> dt nt!_EPROCESS ffffb703d27e9800 ExitStatus
+0x62c ExitStatus : 0n-1073741818


0xc0000006 - The instruction at ... referenced memory at .... The required data was not placed into memory because of an I/O error status of ...

Что, зачастую указывает на проблему с накопителем.

Как вариант, попробуйте проверить файл виртуального накопителя и/ или переподключить его по новой, проверить ф/с виртуального накопителя.

Проверить состояние физического накопителя и ф/с на нём.

Проверить системные файлы и обновить Windows-систему.

Добавлено:
Возможно, что обойдётся обновлением драйверов (https://fedorapeople.org/groups/virt/virtio-win/direct-downloads/archive-virtio/virtio-win-0.1.240-1/) для работы гостевой системы?

goshanecr
08-01-2024, 13:25
Отписываюсь по этой истории: Обновления ставить - не готов. Там лицензионной чистоты нет, ну его. А нет ли наборов офлайн обновлений, как для настольных систем?

По драйверам - поставил, но в списке устройств - ни в каких устройствах, кроме сетевухи, в которой и до этого уже был драйвер от Virtio от RedHat - драйвера родные майкрософтовые остались. И была после этого (не сразу, а в последующем пользовании системы) опять спонтанная перезагрузка.

Сейчас я опцию в gpedit подкрутил связанную с принудительной выгрузкой отключенного сеанса пользователя. Там изначально при генерации сервака поставил, чтобы отключенный сеанс принудительно завершался, сейчас вот смотрел журналы и там запись о выходе моего пользователя (единственный админ в системе) был, в окрестностях времени перезагрузки. Короче отключил эту опцию - мониторю, если вдруг так, то было бы хорошо.

NickM
08-01-2024, 13:38
А нет ли наборов офлайн обновлений, как для настольных систем? »
Так ведь обновления накопительные, скачал последнее (https://support.microsoft.com/en-us/topic/windows-10-and-windows-server-2016-update-history-4acfbc84-a290-1b54-536a-1c0430e9f3fd) и установил;

опять спонтанная перезагрузка. »
Может утечка памяти происходит? Интересно, а в логах хостовой системы никакой информации не найдётся ли?

goshanecr
08-01-2024, 20:12
NickM, за информацию о кумулятивных обновлениях спасибо. Зашёл, в итоге скачал msu пакет:
2023-12 Cumulative Update for Windows Server 2016 for x64-based Systems (KB5033373) Windows Server 2016 Security Updates 12/12/2023 n/a 1639.9 MB

Но ставиться не хочет, говорит "обновление неприменимо к этой машине".

goshanecr
11-01-2024, 06:57
В итоге опробовано вот что:
- KB5033373 установлен - не помогает.
- Опция связанная с принудительным завершением неактивного сеанса - не помогает.
- Перенёс диск виртуалки на другой физический диск - не помогает.
- В логах bhyve никаких ошибок. С хоста всё выглядит так, как будто виртуалка легально перезагрузилась. На самом хосте тоже никаких проблем нет, ошибок ни по дискам, ни по гипервизору нет.


В дампе упоминания о проблеме с драйвером stornvme.sys, и в настройках виртуалки тип диска указан nvme, думаю что надо попробовать сменить на ahci.
Создал соседнюю тему для изучения вопроса с миграцией системы на другой тип диска.

Может связано с какими-то особыми NVME командами, т.к. массив на котором располагается диск виртуалки сам не на NVME дисках, а на SATA SSD, потому думаю может виртуалка пытается какие-то nvme особенности использовать, а их нет. Хотя вроде всё это виртуализованно, но хер его знает.

NickM
11-01-2024, 07:22
В дампе упоминания о проблеме с драйвером stornvme.sys»
Вы имеете ввиду, что изучили новый дамп?

в настройках виртуалки тип диска указан nvme, думаю что надо попробовать сменить на ahci. »
В конфигурационном файле VM (https://klarasystems.com/articles/from-0-to-bhyve-on-freebsd-13-1/) гостевой системы какой тип контроллера накопителя указан?

goshanecr
11-01-2024, 07:40
NickM добрый день!
Цитата NickM:
Вы имеете ввиду, что изучили новый дамп? »
Да, смотрел два последних. Там в обоих отсылки к stornvme.sys. В том, который тут прикреплял - там упоминаний на этот драйвер нет, но ты по итогу его анализа отметил что там тоже проблема связанная с I/O.
Цитата NickM:
В конфигурационном файле VM гостевой системы какой тип контроллера накопителя указан? »
disk0_type="nvme", я уже пробовал тупо сменить тип в конфиге на ahci-hd, но тогда система просто не грузится, говорит не с чего ей загрузиться.

NickM
11-01-2024, 09:26
но тогда система просто не грузится, говорит не с чего ей загрузиться. »
Ошибка загрузки от "Windows" или какая-то другая? "Windows" в безопасном режиме тоже не загружается?

сменить тип в конфиге на ahci-hd »
Попробовать можно, но как пишут, этот бэкенд более медленный;

Может связано с какими-то особыми NVME командами, т.к. массив на котором располагается диск виртуалки сам не на NVME дисках, а на SATA SSD, потому думаю может виртуалка пытается какие-то nvme особенности использовать, а их нет. »
Вряд ли и скорее всего связано с самим RAID - в каком он состоянии? Я бы глянул его. И да, как он организован - аппаратный/ программный/ etc.

goshanecr
11-01-2024, 10:59
Ошибка загрузки от "Windows" или какая-то другая? "Windows" в безопасном режиме тоже не загружается? »
Ошибка да, виндовая что INACCESSIBLE BOOT DEVICE
Попробовать можно, но как пишут, этот бэкенд более медленный; »
Это я видел, но там никуда не упёрлась эта скорость. Это просто терминалка для клиентских 1С-ок, а 1С сервер - другая машина. Так что без разницы.
Вряд ли и скорее всего связано с самим RAID - в каком он состоянии? Я бы глянул его. И да, как он организован - аппаратный/ программный/ etc. »
Там zfs mirror из 2-х SATA SSD.

goshanecr
11-01-2024, 13:17
И по поводу подсистемы хранения: Я пробовал отцепить один из дисков, т.е. одиночный диск в zfs оставался, на котором лежит файл виртуального диска. На каждом из 2-х дисков пробовал оставлять, не влияет на перезагрузки. Также прогнал short и long тесты для обоих дисков в smartctl - всё цело, проблем с дисками не видно.

goshanecr
15-01-2024, 15:49
Ну, судя по всему проблема была связана с nvme типом диска. После перевода на ahci-hd - всё работает стабильно. Тема закрыта.
Вот связанные ресурсы:
PR 243063 :: NVMe timeouts with bhyve (https://bugs.freebsd.org/bugzilla/show_bug.cgi?id=243063)
Как сменить тип диска c NVME на AHCI в Windows (http://forum.oszone.net/thread-354782.html)

NickM
15-01-2024, 16:19
Вот связанные ресурсы:
PR 243063 :: NVMe timeouts with bhyve »
Хех, там приводят ошибки в логах хостовой системы.

И да, Вы перечислили самое бюджетное железо и похоже, что никаким аппаратным контроллером там и не пахнет.

goshanecr
15-01-2024, 17:38
Хех, там приводят ошибки в логах хостовой системы.
И да, Вы перечислили самое бюджетное железо и похоже, что никаким аппаратным контроллером там и не пахнет. »
Да, но там для 12-ой ветки изначально сообщения, дальше пишут, что в 13-ой (13.0) много чего поправили и улучшили, так что вполне возможно что сейчас в целом проблема несколько иная, и в логах не гадит, а лишь не срабатывает в каких-то ситуациях операция доступа к диску в случае если он указан как nvme. Я тут чисто фантазирую. В логах у меня всё пусто. Логи проверять умею, и делаю это при возникновении вопросов.

Ну а контроллер при чём тут и какой? У меня на хосте софтовое ZFS зеркало из двух SATA SSD, это я указывал. Так что ни с каким контроллером не заявлялся я тут.

NickM
15-01-2024, 18:49
Так что ни с каким контроллером не заявлялся я тут. »
Походу не правильно понял первое Ваше упоминание:
Может связано с какими-то особыми NVME командами, т.к. массив на котором располагается диск виртуалки сам не на NVME дисках, »

goshanecr
15-01-2024, 21:40
Походу не правильно понял первое Ваше упоминание: »
А, так там массив имеется в виду программный, т.е. ZFS зеркало - это аналог RAID1, но программный. Я вполне могу вольно использовать термины, так что если ZFS mirror не является в точном смысле этого слова массивом, то значит моя вина :)




© OSzone.net 2001-2012