Архив рубрики: Monitoring

Мониторинг серверов, сетей и оборудования

Prometehus: мониторинг AWS Billing

5 марта 2020
 

 Задача — иметь перед глазами график в Grafana, который будет отображать расходы на AWS. Есть два варианта — использовать експортер от Prometheus — prom/cloudwatch-exporter, или самописный от nachomillangarcia — prometheus_aws_cost_exporter. Первый собирает метрики от AWS CloudWatch, в которые данные по биллингу поступают только на следующий день. Второй написан на Python, ходит к AWS API, получает… Читать далее »

Redis: «psync scheduled to be closed ASAP for overcoming of output buffer limits» и client-output-buffer-limit

20 февраля 2020
 

 Имеется Redis-кластер с Sentinel, см. Redis: репликация, часть 2 — Master-Slave репликация, и Redis Sentinel, Redis: fork — Cannot allocate memory, Linux, виртуальная память и vm.overcommit_memory и Redis: основные параметры конфигурации и тюнинг производительности. Система работала отлично долгое время, пока мы не начали использовать кеш намного более активно. Redis info Проверить все ключи в базах можно… Читать далее »

Kubernetes: запуск metrics-server в AWS EKS для Kubernetes Pod AutoScaler

15 февраля 2020
 

 Предполагается, что AWS EKS уже создан, и имеет рабочие ноды. Ниже — выполним настройку подключения к кластеру, создадим тестовый деплоймент с HPA — Kubernetes Horizontal Pod AutoScaler, и попробуем получить данные об используемых ресурсах с помощью kubectl top. Kubernetes cluster Создаём тестовый кластер: Переключаемся на него. Kubernetes cluster context Настраиваем kubectl: Проверяем доступные в аккаунте… Читать далее »

Grafana: Loki — Prometheus-like счётчики и функции агрегации в LogQL и графики DNS запросов к dnsmasq

16 ноября 2019
 

 Последний раз Loki для сбора и наблюдения за логами настраивал аж в феврале этого (см. Grafana Labs: Loki — сбор и просмотр логов), когда Loki была ещё в beta-версии. Сейчас возникли проблемы с исходящим трафиком (объём за два месяца вырос в 4 раза), никак не можем найти виновника. Как один из вариантов поиска этого самого… Читать далее »

dnsmasq: ошибки в AWS — «Temporary failure in name resolution», логи, дебаг и размер кеша

26 октября 2019
 

 При использовании AWS VPC DNS периодически сталкиваемся с ошибками вида «php_network_getaddresses: getaddrinfo failed: Temporary failure in name resolution«. Единственный совет от тех. поддержки AWS заключался в установке dnsmasq в роли кеширующего сервиса, но он уже давно установлен — а проблема раз в несколько месяцев проявляется снова. Хотя пост не о том, но из возможных причин… Читать далее »

Debian: не срабатывает logrotate — unknown group ‘syslog’

9 октября 2019
 

 Имеется AWS EC2 с Debian с logrotate. Закончилось место на корневом разделе, начали искать причину, обнаружилось, что накопились файлы вида /var/log/syslog.N.gz. При этом по-умолчанию logrotate создаёт файл настроек для syslog: Т.е. должен оставаться syslog + syslog.1, а вместо этого имеем: Проверяем — запускаем logrotate с —debug: unknown group ‘syslog’ Собственно — вот и ошибка. Возникает потому,… Читать далее »

Linux: постоянное хранение логов в systemd-journald

25 сентября 2019
 

 Имеется AWS EC2, который внезапно перезагрузился. Проблема заключается в том, что файл /var/log/messages неполный, последняя запись в нём — о том, что rsyslog был убит. Но вот кем и как — непонятно. Была надежда увидеть логи в journald, но — сюприз: по умолчанию journald хранит только записи о последней загрузке: Собственно, надо включить хранение логов… Читать далее »

Opsgenie: интеграция с Uptrends

24 сентября 2019
 

 Uptrends — простая мониторилка-пинговалка, давно использую для RTFM (см. Prometheus: мониторинг для RTFM — Grafana, Loki и promtail). Решил добавить её как последний рубеж для уведомлений о проблемах с рабочими ендпоинтами, а заодно — прикрутить интеграцию с OpsGenie, через который мы получаем уведомления на мобильные, см. Prometheus: OpsGenie и Alertmanager — уведомления в почту/SMS/телефон. Интеграция… Читать далее »

Prometheus: получить общее количество процессов на сервере и process-exporter

9 сентября 2019
 

 Начали у нас на бекенде размножаться процессы. Причина сейчас не важна, интересно другое: захотелось собирать метрики по общему количеству процессов на хостах, но, внезапно — node-exporter такого не умеет: у него есть только метрики node_procs_running и node_procs_blocked, а хочется видеть количество процессов и в Sleep, и в Zombie. Используем вместо него process-exporter. Запускаем для проверки… Читать далее »

RTFM: День Рождения — 8 годиков и 3 миллиона посетителей. Обзор обновлений.

14 августа 2019
 

 Как-то вдруг наступил уже и Август. Традицонно — 14-е Августа у RTFM что-то вроде Дня рождения: Ну и традиционно — кратенько пройдусь по основным событиям за прошедший год (хотя семилетие не записал, ну да ладно). Блог по-прежнему работает на WordPress, хостится на Debian + NGINX + PHP-FPM + MariaDB — стандартный LEMP. Предыдущие посты: rtfm.co.ua… Читать далее »