Архив рубрики: Monitoring

Мониторинг серверов, сетей и оборудования

AWS: Lambda — копирование тегов EC2 на EBS, часть 2 — создание Lambda-функции

11 октября 2021
 

 Продолжаем создавать Lambda-функцию для копирования тегов EC2 на EBS. В первой части — AWS: Lambda — копирование тегов EC2 на EBS, часть 1 — Python и boto3, мы написали Python-скрипт, который умеет получать список всех EC2 в регионе, и потом для каждого ЕС2 получает список всех его EBS, на которые копирует теги плюс добавляет один… Читать далее »

Prometheus: prometheus_replica и дублирование метрик

4 августа 2021
 

 После запуска Prometheus в виде трёх подов, см. Prometheus: ошибки «federation failed: broken pipe» и «Received SIGTERM, exiting gracefully» — постоянные рестарты — метрики начали дублироваться: Одна метрика получена от инстанса prometheus_replica=»prometheus-prometheus-prometheus-oper-prometheus-1″, вторая — от prometheus_replica=»prometheus-prometheus-prometheus-oper-prometheus-2″, так как запущено три пода: И в Grafana потом неправильно рисуются графики — вместо одного получаем три: Для решения… Читать далее »

AWS: WAF WebACL логи и Logz.io

21 июля 2021
 

 Продолжаем разбираться с AWS WAF. В посте AWS: обзор и настройка Web Application Firewall и его мониторинга ознакомились с основными компонентами, настроили ACL и Rules, подключили базовый мониторинг. Там же настроили сбор логов WAF в AWS Kinesis, теперь хочется их увидеть в Logz.io, пока недоступен CloudWatch Logs. В этом посте ещё раз настроим отправку логов… Читать далее »

AWS: обзор и настройка Web Application Firewall и его мониторинга

16 июля 2021
 

  AWS WAF (Web Application Firewall) — сервис Amazon, выполняющий мониторинг HTTP(S) трафика, проверяя запросы, которые приходят к защищаемому приложению. Может быть подключен к AWS Application LoadBalancer, AWS CloudFront дистрибьюции, Amazon API Gateway и AWS AppSync GraphQL API. В случае обнаружения запросов, попадающих под список правил блокировки и/или IP-адреса из списка запрещённых или имеющих плохую… Читать далее »

AWS: CloudTrail — обзор и интеграция с CloudWatch и Opsgenie

16 июня 2021
 

 AWS CloudTrail явлется сервисом для аудита событий в AWS-аккаунте и включен в каждом аккаунте по-умолчанию. В него записываются события обо всех событиях в аккаунте, которые были сделаны пользователем, ролью или сервисом AWS через AWS Console, AWS CLI или AWS SDK. Записывает API-вызовы, логины в систему, события сервисов и является незаменимым инструментом для обеспечения безопасности AWS-аккаунта.… Читать далее »

AWS: интеграция AWS SNS и Slack, и уведомления от AWS SES о bounced-письмах

11 июня 2021
 

 В продолжение темы AWS: мониторинг Simple Email Service с CloudWatch и Prometheus — настроим получение сообщений о письмах, которые были нами отправлены через SES, но отвергнуты получаетелем. Имея список таких ящиков — будет проще вычистить список отправки, чтобы уменьшить свой bounce-rate. Используем AWS SNS для отправки сообщений, а AWS SES будет через этот SNS-топик слать… Читать далее »

AWS: мониторинг Simple Email Service с CloudWatch и Prometheus

10 июня 2021
 

 Случилась у нас бяда — AWS отключил нам отправку писем через AWS SES из-за bounce-рейта. Проверить это можно в AWS SES > Reputation Dashboard, аккаунт сейчас в статусе Under review: После обращения в тех. поддержку отправку почты нам временно включили, но решить проблему надо, а заодно — следить, что бы подобное не случалось в будущем.… Читать далее »

Prometheus: ошибки «federation failed: broken pipe» и «Received SIGTERM, exiting gracefully» — постоянные рестарты

7 апреля 2021
 

 Имеется Prometheus сервер, запущенный через Prometheus Operator в Kubernetes-кластере, см. Kubernetes: мониторинг кластера с Prometheus Operator. Prometheus сервера в каждом Kubernetes-кластере через Prometheus federation отправляют данные на центральный сервер. При больших нагрузках, например на нашем Kubernetes Dev кластере, где очень много подов, Prometheus начинает падать с ошибками: level=error ts=2021-03-31T07:31:18.765Z caller=federate.go:192 component=web msg=»federation failed» err=»write tcp… Читать далее »

Kubernetes: namespace висит в Terminating и неочевидности с metrics-server

23 марта 2021
 

 Столкнулся с весьма интересной проблемой при удалении Kubernetes Namespace. При попытке удалить неймспейс — он зависает в статусе Terminating, и никакие попытки его удалить не помогали. Рассмотрим варианты удаления, и докопаемся до причины. Создаём тестовый namespace: Пробуем его удалить — и удаление зависает: Проверяем — висит в Terminating: При этом в логах API-сервера никаких ошибок… Читать далее »

Opsgenie: интеграция с AWS RDS и алерты

15 марта 2021
 

 Настроим интеграцию Opsgenie с AWS RDS. Идея заключается в том, что бы отправлять в Opsgenie сообщения о события в RDS, а Opsgenie в свою очередь будет отправлять уведомления в Slack. Для этого нам потребуются AWS Simple Notification Service и AWS RDS Event subscriptions. Документация тут>>>. Настройка Opsgenie Тут всё просто — переходим в Integrations list,… Читать далее »