Спонтанные перезагр...
 

[Решено] Спонтанные перезагрузки Proxmox

55 Записи
4 Пользователи
4 Reactions
14.6 Тыс. Просмотры
Записи: 71
Создатель темы
(@f-yakhyaev)
Trusted Member
Присоединился: 6 лет назад

Доброго времени суток форумчане.

И так есть проблема. Стоит proxmox 5.4.3 (так же 5.3.5 стоял) процы xeon двухсокетный, озу 16 гигов.  Диски sas 4 по 72гига собраны в raid 5 и два диска Sata по 900 в raid 1. Prox стоит на lvm

Раз в день, а то и два раза, может 1 раз в два дня перезапускается proxmox. В этот момент в журналах ничего нет про перезагрузку и что либо в этот промежуток времени. Как будто и reboot небыло.Характер перезагрузки такой: как буд-то кто то с питания рубит и сервер сразу снова вкл.  ОЗУ гонял на тестах, чисто, диски чисто, проц один снимал, потом второй снимал первый оставлял. Ниечго не помогает. Сетевые в биосе отключел и добавил новые две сетевые, ситуация не меняется. Остается БП проверить, что сомневаюсь. Но на днях проверю.

Я не очень силен в linux. Пол года узучаю. Поэтому ногами не бить пж.

При написании Last reboot меня смущают записи, как буд-то предыдущая сессия работает.

reboot system boot 4.15.18-12-pve Sat Jun 15 07:08 still running
reboot system boot 4.15.18-12-pve Thu Jun 13 10:26 still running
reboot system boot 4.15.18-12-pve Thu Jun 13 10:17 - 10:24 (00:07)
reboot system boot 4.15.18-12-pve Thu Jun 13 01:02 - 08:45 (07:43)
reboot system boot 4.15.18-12-pve Wed Jun 12 19:26 - 08:45 (13:19)
reboot system boot 4.15.18-12-pve Wed Jun 12 16:39 - 08:45 (16:05)

Посмотрите две верхние строчки. Сессия котороая два дня длилась за 13 июня, показывает что до сих пор работает или я не так понимаю. А так же текущая сессия работает после перезагрузки за 15 июня.

КТо может что подсказать? Скажите может какие журналы показать. Буду благодарен любой помощи.

 

Ответить
Метки темы
54 Ответов
STALKER_SLX
Записи: 202
(@stalker_slx)
Reputable Member
Присоединился: 6 лет назад

Для начала ознакомтесь с этими материалами:

https://vps.ua/blog/66-about-numa/

В Вашем случае причиной может быть следующее:

"Причиной сбоев оказалось некорректное распределение оперативной памяти между процессорами.  Я случайно, собирая информацию о системе, посмотрел на топологию NUMA. Оказалось, что основная масса процессов в системе выполняет дальний доступ к памяти. Это заставило меня обратить внимание на то, что поставщик, из расчета на апгрейд (модернизацию), вместо установки 6-и планок памяти, установил 3, но вдвое большего объема. Как следствие, планки были установлены только в слоты одного процессора.  И, по воле случая, первый процессор в системе остался без планок памяти. Так случайный взгляд, брошенный на вещи, на которые мы никогда не обращали внимание, помог выявить проблему."

1. Если это не решит Вашу проблему - сделайте как можно подробнее описание настроек самого "Proxmox VE" (в том числе и его ВМ-ок) и выложите их сюда.

2. Используется ли на указанном Вами сервере ИБП (источник бесперебойного питания) ?!

Ответить
1 Ответ
(@f-yakhyaev)
Присоединился: 6 лет назад

Trusted Member
Записи: 71

Спасибо. Я ознакомился со статьей. Я об этом тоже думал.  Одно я не тестировал из этой статьи, это включить ВМ и СТ на машине и смотреть поведение сервера. В понедельник так и сделаю.

На серевере поднято два контейнера с дебиан и одна вм с фряхой. Есть один момент. Когда оба контейнера потушил и осталась одна фряха работать, аптайм был больше двух дней. Или это совпадение или нет пока не знаю.

На мамке два сокета с двумя процами. на каждый проц по 4 гнезда ОЗУ. Вся оперативка стояла на первом процессоре. 4 планки по 4 гига.

Я второй проц снимал.. Потом обратно ставил,  перебрасывал 8 гб озу на второй проц. Получалось 8 гб на 1 сокет и 8 на второй.  Ситуация к сожалению не изменилась.

Образ взят из офф сайта proxmox. Есть и другие сервера, на которые идентично ставил, так же есть не серверная машина, на которую так же накатывал и работает без проблем.

Как и говорил, 4 диска по 72гб отдано под raid5 и prox установлени на нем. raid1 на 1тб для бэкапов и тд.

На proxmox поднято два контейнера дебиан и одна виртуалка freebsd.  Характеристики хоста СКРИН

 

Скрин ВМ фряхи ТУТ

Так же два контейнера с точно таким же выделенным ресурсом.

Да, сервер подключен через  ИБП.

 

Ответить
STALKER_SLX
Записи: 202
(@stalker_slx)
Reputable Member
Присоединился: 6 лет назад

Второй вариант решения - выделите одно физическое ядро процессора с памятью эксклюзивно для хост-системы!

Ответить
2 Ответов
(@f-yakhyaev)
Присоединился: 6 лет назад

Trusted Member
Записи: 71
От: STALKER_SLX

Второй вариант решения - выделите одно физическое ядро процессора с памятью эксклюзивно для хост-системы!

А как этом можно сделать? Подскажите пж или ткните носом на ссылку.

Ответить
STALKER_SLX
(@stalker_slx)
Присоединился: 6 лет назад

Reputable Member
Записи: 202
От: f.yakhyaev
От: STALKER_SLX

Второй вариант решения - выделите одно физическое ядро процессора с памятью эксклюзивно для хост-системы!

А как этом можно сделать? Подскажите пж или ткните носом на ссылку.

Скажу честно: сам такого на практике не делал, но в сети видел, что такое возможно. Если интересно копать в этом направлении - погуглите или обратитесь на форум к разработчикам данного продукта.

Proxmox является простым и удобным решением в области виртуализации, поэтому, я думаю, что разработчики уже учли данный момент и выделили достаточное количество ресурсов - CPU и RAM для нормального функционирования гипервизора. По примеру того, как это сделано в "VMware ESXi", где от каждого ядра хосту отводится минимум 10% частоты работы каждого ядра процессора:

https://communities.vmware.com/thread/237448

Так, что думаю, Вам сейчас нужно внимательно отследить поведение самого гипервизора "Proxmox" при разных задачах (или простое - когда не запущена ни одна ВМ-ка).

Кроме того, желательно разнести по физически разным дискам саму ОС Proxmox и хранилище с запускаемыми ВМ-ками! Если у Вас всё это хозяйство на одном устройстве - RAID5, то это не очень хорошо, т.к. могут быть проблемы с работой самого массива RAID5. Почитайте про это тут:

https://interface31.ru/tech_it/2019/05/raid-likbez.html

"Как и говорил, 4 диска по 72гб отдано под raid5 и prox установлени на нем. raid1 на 1тб для бэкапов и тд."

При таком наборе железа лучше использовать RAID10 вместо 5-го - это и быстродействия Вам добавит (вырастет количество IOPS-ов)!

Ответить
Записи: 71
Создатель темы
(@f-yakhyaev)
Trusted Member
Присоединился: 6 лет назад

Хорошо. Спасибо. Поищу в таком случае по данному вопросу в просторах интернета, как выделить для хоста ресурсы. 

Контейнеры и вм запускаются с разных дисков и с r1 и с r5. 

Честно говоря, я даже снимал контроллер и два сайта диска обьединял в raid1 zfs по средством самого установщика proxmox, но ситуация не изменилась. 

Попробую в пн БП проверить, а потом сам хост оставлю без вм. После отпишусь. Контроллер не из новых и у него нет возможности r1+0 создать. Только 0 или 1 после обновления прошивки его с офф сайта r5  и всё.  

Как и говорил, хост эти три дня на запущенной вм фряхе с выкл двумя контейнерами и он больше работает без перезагрузок. Ап тайм был 2 дня 7 часов. Сегодня вот один раз перезагрузился. А с контейнерами каждые 4 -6 часов перезагружается. 

Да, кстати, можете пояснить насчёт команды last reboot в самом начале который я привел? 

В двух пунктах пишет still runnning. Что означает ещё работает. 

У других машин только текущая сессия отображается как stiil running. А тут как бы сессия поверх второй работает

Ответить
Записи: 926
Admin
(@zerox)
Prominent Member
Присоединился: 11 лет назад

Я на 99% уверен, что тут причина в железе. Все время хочется надеяться, что проблема в софте, но на практике такие аварийные ребуты это всегда с железом проблемы. Нужно проверять все - память, блок питания, процессор.

Я один раз весь сервер пересобрал дублирующими компонентами, даже материнскую плату. Поменял все и только в самом конце дошли руки до процессора и проблема оказалась в нем. Заменил процессор - ребуты прекратились. На руках остались два сервера, один без проца. Так как на него меньше всего думал, поменял все, кроме него. 

Ответить
Страница 1 / 7
Используешь Telegram? Подпишись на канал автора →
This is default text for notification bar