Home » Форум

Форум

Спонтанные перезагр...
 

[Решено] Спонтанные перезагрузки Proxmox  

Страница 1 / 4
 

Farik
(@f-yakhyaev)
Eminent Member
Присоединился: 11 месяцев назад
Сообщения: 42
15.06.2019 10:00  

Доброго времени суток форумчане.

И так есть проблема. Стоит proxmox 5.4.3 (так же 5.3.5 стоял) процы xeon двухсокетный, озу 16 гигов.  Диски sas 4 по 72гига собраны в raid 5 и два диска Sata по 900 в raid 1. Prox стоит на lvm

Раз в день, а то и два раза, может 1 раз в два дня перезапускается proxmox. В этот момент в журналах ничего нет про перезагрузку и что либо в этот промежуток времени. Как будто и reboot небыло.Характер перезагрузки такой: как буд-то кто то с питания рубит и сервер сразу снова вкл.  ОЗУ гонял на тестах, чисто, диски чисто, проц один снимал, потом второй снимал первый оставлял. Ниечго не помогает. Сетевые в биосе отключел и добавил новые две сетевые, ситуация не меняется. Остается БП проверить, что сомневаюсь. Но на днях проверю.

Я не очень силен в linux. Пол года узучаю. Поэтому ногами не бить пж.

При написании Last reboot меня смущают записи, как буд-то предыдущая сессия работает.

reboot system boot 4.15.18-12-pve Sat Jun 15 07:08 still running
reboot system boot 4.15.18-12-pve Thu Jun 13 10:26 still running
reboot system boot 4.15.18-12-pve Thu Jun 13 10:17 - 10:24 (00:07)
reboot system boot 4.15.18-12-pve Thu Jun 13 01:02 - 08:45 (07:43)
reboot system boot 4.15.18-12-pve Wed Jun 12 19:26 - 08:45 (13:19)
reboot system boot 4.15.18-12-pve Wed Jun 12 16:39 - 08:45 (16:05)

Посмотрите две верхние строчки. Сессия котороая два дня длилась за 13 июня, показывает что до сих пор работает или я не так понимаю. А так же текущая сессия работает после перезагрузки за 15 июня.

КТо может что подсказать? Скажите может какие журналы показать. Буду благодарен любой помощи.

 


Цитата
Topic Tags
STALKER_SLX
(@stalker_slx)
Estimable Member
Присоединился: 11 месяцев назад
Сообщения: 133
15.06.2019 10:17  

Для начала ознакомтесь с этими материалами:

https://vps.ua/blog/66-about-numa/

В Вашем случае причиной может быть следующее:

"Причиной сбоев оказалось некорректное распределение оперативной памяти между процессорами.  Я случайно, собирая информацию о системе, посмотрел на топологию NUMA. Оказалось, что основная масса процессов в системе выполняет дальний доступ к памяти. Это заставило меня обратить внимание на то, что поставщик, из расчета на апгрейд (модернизацию), вместо установки 6-и планок памяти, установил 3, но вдвое большего объема. Как следствие, планки были установлены только в слоты одного процессора.  И, по воле случая, первый процессор в системе остался без планок памяти. Так случайный взгляд, брошенный на вещи, на которые мы никогда не обращали внимание, помог выявить проблему."

1. Если это не решит Вашу проблему - сделайте как можно подробнее описание настроек самого "Proxmox VE" (в том числе и его ВМ-ок) и выложите их сюда.

2. Используется ли на указанном Вами сервере ИБП (источник бесперебойного питания) ?!


ОтветитьЦитата
STALKER_SLX
(@stalker_slx)
Estimable Member
Присоединился: 11 месяцев назад
Сообщения: 133
15.06.2019 10:43  

Второй вариант решения - выделите одно физическое ядро процессора с памятью эксклюзивно для хост-системы!


ОтветитьЦитата
Farik
(@f-yakhyaev)
Eminent Member
Присоединился: 11 месяцев назад
Сообщения: 42
15.06.2019 10:57  

Спасибо. Я ознакомился со статьей. Я об этом тоже думал.  Одно я не тестировал из этой статьи, это включить ВМ и СТ на машине и смотреть поведение сервера. В понедельник так и сделаю.

На серевере поднято два контейнера с дебиан и одна вм с фряхой. Есть один момент. Когда оба контейнера потушил и осталась одна фряха работать, аптайм был больше двух дней. Или это совпадение или нет пока не знаю.

На мамке два сокета с двумя процами. на каждый проц по 4 гнезда ОЗУ. Вся оперативка стояла на первом процессоре. 4 планки по 4 гига.

Я второй проц снимал.. Потом обратно ставил,  перебрасывал 8 гб озу на второй проц. Получалось 8 гб на 1 сокет и 8 на второй.  Ситуация к сожалению не изменилась.

Образ взят из офф сайта proxmox. Есть и другие сервера, на которые идентично ставил, так же есть не серверная машина, на которую так же накатывал и работает без проблем.

Как и говорил, 4 диска по 72гб отдано под raid5 и prox установлени на нем. raid1 на 1тб для бэкапов и тд.

На proxmox поднято два контейнера дебиан и одна виртуалка freebsd.  Характеристики хоста СКРИН

 

Скрин ВМ фряхи ТУТ

Так же два контейнера с точно таким же выделенным ресурсом.

Да, сервер подключен через  ИБП.

 


ОтветитьЦитата
Farik
(@f-yakhyaev)
Eminent Member
Присоединился: 11 месяцев назад
Сообщения: 42
15.06.2019 10:58  
От: STALKER_SLX

Второй вариант решения - выделите одно физическое ядро процессора с памятью эксклюзивно для хост-системы!

А как этом можно сделать? Подскажите пж или ткните носом на ссылку.


ОтветитьЦитата
STALKER_SLX
(@stalker_slx)
Estimable Member
Присоединился: 11 месяцев назад
Сообщения: 133
15.06.2019 14:33  
От: f.yakhyaev
От: STALKER_SLX

Второй вариант решения - выделите одно физическое ядро процессора с памятью эксклюзивно для хост-системы!

А как этом можно сделать? Подскажите пж или ткните носом на ссылку.

Скажу честно: сам такого на практике не делал, но в сети видел, что такое возможно. Если интересно копать в этом направлении - погуглите или обратитесь на форум к разработчикам данного продукта.

Proxmox является простым и удобным решением в области виртуализации, поэтому, я думаю, что разработчики уже учли данный момент и выделили достаточное количество ресурсов - CPU и RAM для нормального функционирования гипервизора. По примеру того, как это сделано в "VMware ESXi", где от каждого ядра хосту отводится минимум 10% частоты работы каждого ядра процессора:

https://communities.vmware.com/thread/237448

Так, что думаю, Вам сейчас нужно внимательно отследить поведение самого гипервизора "Proxmox" при разных задачах (или простое - когда не запущена ни одна ВМ-ка).

Кроме того, желательно разнести по физически разным дискам саму ОС Proxmox и хранилище с запускаемыми ВМ-ками! Если у Вас всё это хозяйство на одном устройстве - RAID5, то это не очень хорошо, т.к. могут быть проблемы с работой самого массива RAID5. Почитайте про это тут:

https://interface31.ru/tech_it/2019/05/raid-likbez.html

"Как и говорил, 4 диска по 72гб отдано под raid5 и prox установлени на нем. raid1 на 1тб для бэкапов и тд."

При таком наборе железа лучше использовать RAID10 вместо 5-го - это и быстродействия Вам добавит (вырастет количество IOPS-ов)!

This post was modified 4 месяца назад by STALKER_SLX

ОтветитьЦитата
Farik
(@f-yakhyaev)
Eminent Member
Присоединился: 11 месяцев назад
Сообщения: 42
15.06.2019 17:32  

Хорошо. Спасибо. Поищу в таком случае по данному вопросу в просторах интернета, как выделить для хоста ресурсы. 

Контейнеры и вм запускаются с разных дисков и с r1 и с r5. 

Честно говоря, я даже снимал контроллер и два сайта диска обьединял в raid1 zfs по средством самого установщика proxmox, но ситуация не изменилась. 

Попробую в пн БП проверить, а потом сам хост оставлю без вм. После отпишусь. Контроллер не из новых и у него нет возможности r1+0 создать. Только 0 или 1 после обновления прошивки его с офф сайта r5  и всё.  

Как и говорил, хост эти три дня на запущенной вм фряхе с выкл двумя контейнерами и он больше работает без перезагрузок. Ап тайм был 2 дня 7 часов. Сегодня вот один раз перезагрузился. А с контейнерами каждые 4 -6 часов перезагружается. 

Да, кстати, можете пояснить насчёт команды last reboot в самом начале который я привел? 

В двух пунктах пишет still runnning. Что означает ещё работает. 

У других машин только текущая сессия отображается как stiil running. А тут как бы сессия поверх второй работает


ОтветитьЦитата
Zerox
(@zerox)
Reputable Member Admin
Присоединился: 6 лет назад
Сообщения: 407
16.06.2019 17:33  

Я на 99% уверен, что тут причина в железе. Все время хочется надеяться, что проблема в софте, но на практике такие аварийные ребуты это всегда с железом проблемы. Нужно проверять все - память, блок питания, процессор.

Я один раз весь сервер пересобрал дублирующими компонентами, даже материнскую плату. Поменял все и только в самом конце дошли руки до процессора и проблема оказалась в нем. Заменил процессор - ребуты прекратились. На руках остались два сервера, один без проца. Так как на него меньше всего думал, поменял все, кроме него. 


STALKER_SLX лайков
ОтветитьЦитата
Farik
(@f-yakhyaev)
Eminent Member
Присоединился: 11 месяцев назад
Сообщения: 42
16.06.2019 17:54  

Дело в том, что под виндой работает безотказно. Процессоров два. Я оставлял по одному их, так же другую память подсовывал. Не может же оба проца лечь сразу.  Остаётся сама мать и БП. БП проверю в понедельник. 

Как писал выше, меня смущает вывод команды last reboot. После каждой перезагрузки показывает 3-4 работающих сессий, а так же заббикс ругается на большое количество запущенных процессов. Смотрю прессов 70-100, а заббикс всё равно говорит что свыше 300 процессов и это связано с несколькими сессиями которые выдает last reboot

Ещё попробую по вашей статье установить дебиан в после накатить проксмокс. Может такой вариант изменит ситуацию.

This post was modified 4 месяца назад 2 times by Farik

ОтветитьЦитата
STALKER_SLX
(@stalker_slx)
Estimable Member
Присоединился: 11 месяцев назад
Сообщения: 133
17.06.2019 11:17  

f.yakhyaev, давайте по-порядку разбираться.

1. Напишите модель каждого из комплектующих в Вашем проблемном сервере.

2. У Вас ВСЕ жесткие диски подключены к ОДНОМУ физическому RAID-контроллеру (отдельной платой) ?! Или же есть какие-то нюансы (например, что-то из дисков подключено к встроенному в материнскую плату RAID или же к софтварному )?

3. Вывод команды "last reboot" сам по себе мало о чём может говорить! Выложите сюда журнал работы системы (интересуют показания в последние секунды до "ребутов"). Сделать это можно так, вводите в консоли сервера команду: dmesg > dmesg.log . Потом выкладываете этот файл сюда на форум и будем разбираться.


ОтветитьЦитата
Farik
(@f-yakhyaev)
Eminent Member
Присоединился: 11 месяцев назад
Сообщения: 42
17.06.2019 13:16  

Проц: Intel(R) Xeon(R) CPU E5620 @ 2.40GHz
Мать: intel server board s5500bc
Raid controller:SRCSAS18E
ОЗУ: KIngstone KVR1066D3Q8R7S/4G (4 штуки и всё идентичные)

Все 6 дисков (4сас, 2сата) подключены на Raid controller.

ЛОГ

 

This post was modified 4 месяца назад 2 times by Farik

ОтветитьЦитата
STALKER_SLX
(@stalker_slx)
Estimable Member
Присоединился: 11 месяцев назад
Сообщения: 133
17.06.2019 14:11  

Покажите результаты следующих команд ("#" - выполнять от рута):

# dmidecode -s baseboard-manufacturer
# dmidecode -s baseboard-product-name
# dmidecode -s bios-version
# dmidecode -s bios-release-date


ОтветитьЦитата
Farik
(@f-yakhyaev)
Eminent Member
Присоединился: 11 месяцев назад
Сообщения: 42
17.06.2019 14:14  

Intel Corporation

S5500BC

S5500.86B.01.00.0055.112620101923

11/26/2010

 

 


ОтветитьЦитата
STALKER_SLX
(@stalker_slx)
Estimable Member
Присоединился: 11 месяцев назад
Сообщения: 133

ОтветитьЦитата
Farik
(@f-yakhyaev)
Eminent Member
Присоединился: 11 месяцев назад
Сообщения: 42
17.06.2019 14:20  

И так и так пробовал, результат одинаковый.


ОтветитьЦитата
Страница 1 / 4
Share:

Пожалуйста, Вход или Зарегистрироваться