Архив метки: monitoring

AWS: интеграция AWS SNS и Slack, и уведомления от AWS SES о bounced-письмах
0 (0)

11 июня 2021

В продолжение темы AWS: мониторинг Simple Email Service с CloudWatch и Prometheus — настроим получение сообщений о письмах, которые были нами отправлены через SES, но отвергнуты получаетелем. Имея список таких ящиков — будет проще вычистить список отправки, чтобы уменьшить свой bounce-rate. Используем AWS SNS для отправки сообщений, а AWS SES будет через этот SNS-топик слать… Читать далее: AWS: интеграция AWS SNS и Slack, и уведомления от AWS… »

AWS: мониторинг Simple Email Service с CloudWatch и Prometheus
0 (0)

10 июня 2021

Случилась у нас бяда — AWS отключил нам отправку писем через AWS SES из-за bounce-рейта. Проверить это можно в AWS SES > Reputation Dashboard, аккаунт сейчас в статусе Under review: После обращения в тех. поддержку отправку почты нам временно включили, но решить проблему надо, а заодно — следить, что бы подобное не случалось в будущем.… Читать далее: AWS: мониторинг Simple Email Service с CloudWatch и Prometheus0 (0) »

Prometheus: ошибки «federation failed: broken pipe» и «Received SIGTERM, exiting gracefully» — постоянные рестарты
0 (0)

7 апреля 2021

Имеется Prometheus сервер, запущенный через Prometheus Operator в Kubernetes-кластере, см. Kubernetes: мониторинг кластера с Prometheus Operator. Prometheus сервера в каждом Kubernetes-кластере через Prometheus federation отправляют данные на центральный сервер. При больших нагрузках, например на нашем Kubernetes Dev кластере, где очень много подов, Prometheus начинает падать с ошибками: level=error ts=2021-03-31T07:31:18.765Z caller=federate.go:192 component=web msg=»federation failed» err=»write tcp… Читать далее: Prometheus: ошибки «federation failed: broken pipe» и «Received SIGTERM, exiting… »

Kubernetes: namespace висит в Terminating и неочевидности с metrics-server
0 (0)

23 марта 2021

Столкнулся с весьма интересной проблемой при удалении Kubernetes Namespace. При попытке удалить неймспейс — он зависает в статусе Terminating, и никакие попытки его удалить не помогали. Рассмотрим варианты удаления, и докопаемся до причины. Создаём тестовый namespace: [simterm] $ kubectl create namespace test-ns namespace/test-ns created [/simterm] Пробуем его удалить — и удаление зависает: [simterm] $ kubectl… Читать далее: Kubernetes: namespace висит в Terminating и неочевидности с metrics-server0 (0) »

Opsgenie: интеграция с AWS RDS и алерты
0 (0)

15 марта 2021

Настроим интеграцию Opsgenie с AWS RDS. Идея заключается в том, что бы отправлять в Opsgenie сообщения о события в RDS, а Opsgenie в свою очередь будет отправлять уведомления в Slack. Для этого нам потребуются AWS Simple Notification Service и AWS RDS Event subscriptions. Документация тут>>>. Настройка Opsgenie Тут всё просто — переходим в Integrations list,… Читать далее: Opsgenie: интеграция с AWS RDS и алерты0 (0) »

OpsGenie: настройка Incidents и Incidents Management проекта в целом
0 (0)

3 марта 2021

Со временем в проекте пришли к тому, что пора бы записывать все инциденты, влияющие на работу сервисов и приложний. Раньше вели документ в Confluence, который заполняли руками — но решение так себе, ибо 90% инцидентов просто решали без добавления записей о них. Захотелось как-то навести порядок, ввести более адекватный Incidents Management (IcM), и вообще автоматизировать… Читать далее: OpsGenie: настройка Incidents и Incidents Management проекта в целом0 (0) »

Yandex.Tank: нагрузочное тестирование
0 (0)

9 февраля 2021

Кроме горячо любимых Apache Bench и JMeter имеется интересная утилита Yandex Tank. Ей давно пользуются наши QA, пришло время и мне его потрогать для проверки одной проблемы с Kubernetes, о которой поговорим в следующем посте. В этом — посмотрим на базовые возможности Yandex.Tank. Из особенно приятного — в отличии от Apache Bench выводит статистику по… Читать далее: Yandex.Tank: нагрузочное тестирование0 (0) »

Logz.io: сбор логов из Kubernetes — fluentd vs filebeat
0 (0)

27 января 2021

У нас для сбора логов из Kubernetes-кластера и их просмотра используется Logz.io (есть и локальный Loki). Конкретно сбором и отправкой логов занимается Fluentd-под на каждой WorkerNode, которые деплоятся из DaemonSet в его дефотной конфигурации, см. документацию logzio-k8s. Столкнулся с проблемой, что эти поды используют слишком много CPU — до 3000 millicpu, при том, что на… Читать далее: Logz.io: сбор логов из Kubernetes — fluentd vs filebeat0 (0) »

Prometheus: Alertmanager Web UI и Silence алертов
0 (0)

30 декабря 2020

Частота отправки активных алертов из Alertmanager определяется параметром repeat_interval в файле /etc/alertmanager/config.yml. У нас этот интервал задан в 15 минут, в результате чего в Slack каждые 15 минут приходят уведомления обо всех активных алертах в системе. Но некоторые алерты это такие себе «known issue», когда о проблеме мы знаем, девелоперы её взяли в работу для… Читать далее: Prometheus: Alertmanager Web UI и Silence алертов0 (0) »

Linux: настройка LEMP — NGINX, PHP, MySQL, SSL, мониторинг, логи, и миграция RTFM
0 (0)

5 ноября 2020

Собрался наконец-то перенести RTFM на Debian 10, решил делать без автоматизации — будем поднимать стандартный LEMP для хостинга WordPress руками. Что-то похожее последний раз писалось в 2016 — Debian: установка LEMP — NGINX + PHP-FPM + MariaDB, в этот раз получился более полный обзор процесса. Также, когда-то делал автоматизацию для настройки сервера под RTFM, но последний… Читать далее: Linux: настройка LEMP — NGINX, PHP, MySQL, SSL, мониторинг, логи,… »

Пн	Вт	Ср	Чт	Пт	Сб	Вс
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31