Архив метки: OpsGenie

Prometheus: Recording Rules и теги – разделяем алерты в Slack

26 ноября 2021
 

 С 2018 года используем Opsgenie, который получает алерты от Prometheus, CloudWatch и Uptrends, которые потом через Slack-интеграцию отправляет нам в Slack. Интеграции Slack на данный момент выглядят так: В каждой из них настроен фильтр по уровню важности, например интеграция P1, P2 > Slack #devops-alarms-warning: Но есть проблема: так как каналы получаются общие, то все алерты… Читать далее »

AWS: Trusted Advisor, часть 2 – алерты CloudWatch и уведомления в Slack

25 ноября 2021
 

 В продолжение темы по работе с AWS TrustedAdvisor – рассмотрим настройку отправки уведомлений и обновление данных в Trusted Advisor. Начало – AWS: Trusted Advisor, часть 1 – обзор возможностей. Что бы настроить уведомления – используем метрики Trusted Advisor, которые он шлёт в CloudWatch, см. список на странице Trusted Advisor metrics and dimensions. Далее, CloudWatch будет… Читать далее »

AWS: CloudTrail – обзор и интеграция с CloudWatch и Opsgenie

16 июня 2021
 

 AWS CloudTrail явлется сервисом для аудита событий в AWS-аккаунте и включен в каждом аккаунте по-умолчанию. В него записываются события обо всех событиях в аккаунте, которые были сделаны пользователем, ролью или сервисом AWS через AWS Console, AWS CLI или AWS SDK. Записывает API-вызовы, логины в систему, события сервисов и является незаменимым инструментом для обеспечения безопасности AWS-аккаунта.… Читать далее »

Opsgenie: интеграция с AWS RDS и алерты

15 марта 2021
 

 Настроим интеграцию Opsgenie с AWS RDS. Идея заключается в том, что бы отправлять в Opsgenie сообщения о события в RDS, а Opsgenie в свою очередь будет отправлять уведомления в Slack. Для этого нам потребуются AWS Simple Notification Service и AWS RDS Event subscriptions. Документация тут>>>. Настройка Opsgenie Тут всё просто – переходим в Integrations list,… Читать далее »

OpsGenie: настройка Incidents и Incidents Management проекта в целом

3 марта 2021
 

 Со временем в проекте пришли к тому, что пора бы записывать все инциденты, влияющие на работу сервисов и приложний. Раньше вели документ в Confluence, который заполняли руками – но решение так себе, ибо 90% инцидентов просто решали без добавления записей о них. Захотелось как-то навести порядок, ввести более адекватный Incidents Management (IcM), и вообще автоматизировать… Читать далее »