Архив рубрики: Monitoring

Мониторинг серверов, сетей и оборудования

Debian: не срабатывает logrotate — unknown group ‘syslog’
0 (0)

9 октября 2019

Имеется AWS EC2 с Debian с logrotate. Закончилось место на корневом разделе, начали искать причину, обнаружилось, что накопились файлы вида /var/log/syslog.N.gz. При этом по-умолчанию logrotate создаёт файл настроек для syslog: [simterm] root@monitoring-dev:~# cat /etc/logrotate.d/syslog # Ansible managed /var/log/syslog { size 10M rotate 1 daily … } [/simterm] Т.е. должен оставаться syslog + syslog.1, а вместо этого… Читать далее: Debian: не срабатывает logrotate — unknown group ‘syslog’0 (0) »

Linux: постоянное хранение логов в systemd-journald
0 (0)

25 сентября 2019

Имеется AWS EC2, который внезапно перезагрузился. Проблема заключается в том, что файл /var/log/messages неполный, последняя запись в нём — о том, что rsyslog был убит. Но вот кем и как — непонятно. Была надежда увидеть логи в journald, но — сюприз: по умолчанию journald хранит только записи о последней загрузке: [simterm] root@bttrm-stage-console:/home/admin# journalctl —list-boots 0… Читать далее: Linux: постоянное хранение логов в systemd-journald0 (0) »

Opsgenie: интеграция с Uptrends
0 (0)

24 сентября 2019

Uptrends — простая мониторилка-пинговалка, давно использую для RTFM (см. Prometheus: мониторинг для RTFM — Grafana, Loki и promtail). Решил добавить её как последний рубеж для уведомлений о проблемах с рабочими ендпоинтами, а заодно — прикрутить интеграцию с OpsGenie, через который мы получаем уведомления на мобильные, см. Prometheus: OpsGenie и Alertmanager — уведомления в почту/SMS/телефон. Интеграция… Читать далее: Opsgenie: интеграция с Uptrends0 (0) »

Prometheus: получить общее количество процессов на сервере и process-exporter
0 (0)

9 сентября 2019

Начали у нас на бекенде размножаться процессы. Причина сейчас не важна, интересно другое: захотелось собирать метрики по общему количеству процессов на хостах, но, внезапно — node-exporter такого не умеет: у него есть только метрики node_procs_running и node_procs_blocked, а хочется видеть количество процессов и в Sleep, и в Zombie. Используем вместо него process-exporter. Запускаем для проверки… Читать далее: Prometheus: получить общее количество процессов на сервере и process-exporter0 (0) »

RTFM: День Рождения — 8 годиков и 3 миллиона посетителей. Обзор обновлений.
5 (1)

14 августа 2019

Как-то вдруг наступил уже и Август. Традицонно — 14-е Августа у RTFM что-то вроде Дня рождения: Ну и традиционно — кратенько пройдусь по основным событиям за прошедший год (хотя семилетие не записал, ну да ладно). Блог по-прежнему работает на WordPress, хостится на Debian + NGINX + PHP-FPM + MariaDB — стандартный LEMP. Предыдущие посты: rtfm.co.ua… Читать далее: RTFM: День Рождения — 8 годиков и 3 миллиона посетителей.… »

Sentry: запуск self-hosted версии системы мониторинга ошибок на AWS EC2
0 (0)

18 мая 2019

Для проекта мы пользовались Cloud-based версией Sentry, но в один прекрасный день исчерпали лимит на отправку сообщений, и бекенд-команда, по сути, осталась без мониторинга. Давно собирались запустить Sentry на своём сервере, появился повод. В посте описывается запуск Sentry с Docker Compose, настройка почты и пример перехвата ошибок в Python. Используем репозиторий Sentry. Запускаем AWS EC2,… Читать далее: Sentry: запуск self-hosted версии системы мониторинга ошибок на AWS EC20… »

Prometheus» Alertmanager — отправка алертов в «/dev/null»
0 (0)

26 марта 2019

В дополнение к посту Prometheus: роутинг алертов в Alertmanager. Имеется конфиг с роутами. Задача — вырезать все алерты от Дев-а, и слать в «/dev/null». Для этого — создаём пустой ресивер: … receivers: — name: ‘blackhole’ — name: ‘default’ slack_configs: — send_resolved: true title_link: ‘http://dev.monitor.example.world/prometheus/alerts’ title: ‘{{ if eq .Status «firing» }}:confused:{{ else }}:dancing_panda:{{ end }}… Читать далее: Prometheus» Alertmanager — отправка алертов в «/dev/null»0 (0) »

Monit: алерты при SSH логинах на сервер
0 (0)

18 марта 2019

Задача — отсылать уведомления на почту при SSH-логине на хост с недоверенных IP. Используем Monit. Устанавливаем: [simterm] root@jenkins-dev:/home/admin# apt update && apt -y install monit [/simterm] Настраиваем отправку почты — задаём localhost (у нас крутится локальный exim), формат письма и получателя алертов. Редактируем /etc/monit/monitrc: … set mailserver localhost set mail-format { from: Monit <monit@$HOST> subject:… Читать далее: Monit: алерты при SSH логинах на сервер0 (0) »

Prometheus: мониторинг для RTFM — Grafana, Loki и promtail
0 (0)

9 марта 2019

После внедрения Loki на рабочем проекте — решил добавить его и себе. А заодно — добавить node_exporter и alertmanager, что бы получать уведомления, когда на разделах будет заканчиваться место. Обычно «Ссылки по теме» размещаю в конце поста, но тут стоит их добавить в начале. Для общего знакомства с Prometheus: Prometheus: мониторинг — введение, установка, запуск,… Читать далее: Prometheus: мониторинг для RTFM — Grafana, Loki и promtail0 (0) »

Prometheus: blackbox-exporter probe_http_status_code == 0 и его debug
0 (0)

6 марта 2019

Сегодня решил обновить Grafana до уже релизной версии 6.0, а заодно — все остальные образы в стеке. Апдейт прошёл успешно (Loki наконец-то начала выводить имена файлов логов и все остальные лейблы), но вот в Slack сразу упала пачка CRITICAL алертов от blackbox-exporter, который проверяет все наши API-ендпоинты. Собственно, тут — пример использования дебага blackbox-exporter. Всего… Читать далее: Prometheus: blackbox-exporter probe_http_status_code == 0 и его debug0 (0) »

Пн	Вт	Ср	Чт	Пт	Сб	Вс
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31