Home »

Zabbix + Prometheus (exporters). Пропускаются метрики

  

0
Topic starter

Здравствуйте, товарищи!

 

Ubuntu 18. Zabbix 5.0 + Postgres. Разные экспортеры прометея. Период опроса 1 минута.

Проблема: периодически появляются "пропуски" в сборе метрик. Данные собираются, обрабатываются, но потом может быть пропуск в 3,5,7минут, срабатывает триггер nodata на отсутствие данных с экспортеров. Затем само собой снова восстанавливается. Сбор восстанавливается, значения появляются.

При этом порт экспортера доступен. Повесил доп.проверку http на код 200. Она не алармит, т.е. сам экспортер доступен. И в ручном режиме он отдает данные, а вот заббикс почему-то не собирает их.

В логах вижу по одному из серверов :

32180:20201207:151616.064 item "MYSERVER:apache_exporter.get" became not supported: Cannot perform request: Connection timed out after 3000 milliseconds

32174:20201207:152413.715 item "MYSERVER:apache_exporter.get" became supported

в 15:16 ошибка получения данных, в 15:24 успех. И на графиках появляются пропуски. Сетевая недоступность отклоняется. С этого сервера prometheus собирает метрики по хостам и через графану все отображается корректно. Связь с экспортерами не пропадает.

 

Сам сервер. 4 vCPU, 8GB RAM, 200Gb SSD. Очереди пусты. Самодиагноситка заббикса показывает, что он не перегружен. Запас по пулам есть.

Кто-нибудь сталкивался с подобным? В чем может быть дело?

что-то не понял, как добавлять сразу несколько картинок. Система разрешает только по одной. Прикладывают скрин очередей. Он пуст.

1 Ответ
0

Сам с таким не сталкивался с экспортерами прометеуса, но я бы смотрел в сторону увеличения StartHTTPPollers. Может их просто не хватает?

Похожие ошибки иногда вижу при мониторинге сайтов. Некоторые проверки зависают до периода таймаута. Там он 15 секунд. 

Как дебажить это толком не понимаю. Может быть имеет смысл увеличить уровень логирования сервера и посмотреть на эти ошибки? 

DebugLevel=4