Доброго времени суток форумчане.
И так есть проблема. Стоит proxmox 5.4.3 (так же 5.3.5 стоял) процы xeon двухсокетный, озу 16 гигов. Диски sas 4 по 72гига собраны в raid 5 и два диска Sata по 900 в raid 1. Prox стоит на lvm
Раз в день, а то и два раза, может 1 раз в два дня перезапускается proxmox. В этот момент в журналах ничего нет про перезагрузку и что либо в этот промежуток времени. Как будто и reboot небыло.Характер перезагрузки такой: как буд-то кто то с питания рубит и сервер сразу снова вкл. ОЗУ гонял на тестах, чисто, диски чисто, проц один снимал, потом второй снимал первый оставлял. Ниечго не помогает. Сетевые в биосе отключел и добавил новые две сетевые, ситуация не меняется. Остается БП проверить, что сомневаюсь. Но на днях проверю.
Я не очень силен в linux. Пол года узучаю. Поэтому ногами не бить пж.
При написании Last reboot меня смущают записи, как буд-то предыдущая сессия работает.
reboot system boot 4.15.18-12-pve Sat Jun 15 07:08 still running
reboot system boot 4.15.18-12-pve Thu Jun 13 10:26 still running
reboot system boot 4.15.18-12-pve Thu Jun 13 10:17 - 10:24 (00:07)
reboot system boot 4.15.18-12-pve Thu Jun 13 01:02 - 08:45 (07:43)
reboot system boot 4.15.18-12-pve Wed Jun 12 19:26 - 08:45 (13:19)
reboot system boot 4.15.18-12-pve Wed Jun 12 16:39 - 08:45 (16:05)
Посмотрите две верхние строчки. Сессия котороая два дня длилась за 13 июня, показывает что до сих пор работает или я не так понимаю. А так же текущая сессия работает после перезагрузки за 15 июня.
КТо может что подсказать? Скажите может какие журналы показать. Буду благодарен любой помощи.
Для начала ознакомтесь с этими материалами:
https://vps.ua/blog/66-about-numa/
В Вашем случае причиной может быть следующее:
"Причиной сбоев оказалось некорректное распределение оперативной памяти между процессорами. Я случайно, собирая информацию о системе, посмотрел на топологию NUMA. Оказалось, что основная масса процессов в системе выполняет дальний доступ к памяти. Это заставило меня обратить внимание на то, что поставщик, из расчета на апгрейд (модернизацию), вместо установки 6-и планок памяти, установил 3, но вдвое большего объема. Как следствие, планки были установлены только в слоты одного процессора. И, по воле случая, первый процессор в системе остался без планок памяти. Так случайный взгляд, брошенный на вещи, на которые мы никогда не обращали внимание, помог выявить проблему."
1. Если это не решит Вашу проблему - сделайте как можно подробнее описание настроек самого "Proxmox VE" (в том числе и его ВМ-ок) и выложите их сюда.
2. Используется ли на указанном Вами сервере ИБП (источник бесперебойного питания) ?!
Второй вариант решения - выделите одно физическое ядро процессора с памятью эксклюзивно для хост-системы!
Хорошо. Спасибо. Поищу в таком случае по данному вопросу в просторах интернета, как выделить для хоста ресурсы.
Контейнеры и вм запускаются с разных дисков и с r1 и с r5.
Честно говоря, я даже снимал контроллер и два сайта диска обьединял в raid1 zfs по средством самого установщика proxmox, но ситуация не изменилась.
Попробую в пн БП проверить, а потом сам хост оставлю без вм. После отпишусь. Контроллер не из новых и у него нет возможности r1+0 создать. Только 0 или 1 после обновления прошивки его с офф сайта r5 и всё.
Как и говорил, хост эти три дня на запущенной вм фряхе с выкл двумя контейнерами и он больше работает без перезагрузок. Ап тайм был 2 дня 7 часов. Сегодня вот один раз перезагрузился. А с контейнерами каждые 4 -6 часов перезагружается.
Да, кстати, можете пояснить насчёт команды last reboot в самом начале который я привел?
В двух пунктах пишет still runnning. Что означает ещё работает.
У других машин только текущая сессия отображается как stiil running. А тут как бы сессия поверх второй работает
Я на 99% уверен, что тут причина в железе. Все время хочется надеяться, что проблема в софте, но на практике такие аварийные ребуты это всегда с железом проблемы. Нужно проверять все - память, блок питания, процессор.
Я один раз весь сервер пересобрал дублирующими компонентами, даже материнскую плату. Поменял все и только в самом конце дошли руки до процессора и проблема оказалась в нем. Заменил процессор - ребуты прекратились. На руках остались два сервера, один без проца. Так как на него меньше всего думал, поменял все, кроме него.