Архив рубрики: Monitoring

Мониторинг серверов, сетей и оборудования

Elastic Stack: обзор и установка ELK на Ubuntu

28 января 2022
 

 Последний раз ELK трогал (oh, my!) 7 лет тому, см. ELK: установка Elasticsearch+Logstash+Kibana на CentOS. Сейчас активно используем Logz.io, но расходы всё растут, и понемногу начинаем смотреть в сторону self-hosted ELK для запуска в Kubernetes, а потому надо поднять такой себе Proof of concept, дабы вспомнить с чем его едят и как настраивают. Собственно, в… Читать далее »

Prometheus: мониторинг сети с node_exporter – метрики сети CloudWatch и Docker –net=host

16 декабря 2021
 

 Начал обновлять дашборды в Grafana, и столкнулся с двумя интересными вещами. Первое – что же на самом деле показывается в CloudWatch для сети в графиках NetworkIn/Out (Bytes), как эти данные правильно интерпретировать, и как данные CloudWatch коррелируют с данными самого node_exporter? Второе – почему node_exporter должен быть запущен именно в режиме host network mode? Сначала… Читать далее »

Prometheus: мониторинг AWS Load Balancer Controller Controller в AWS EKS

10 декабря 2021
 

 “Внезапно”, но AWS ALB Controller умеет в метрики для Prometheus. Используем стандартный URI /metrics. Для начала – проверим, что метрики в поде есть. Находим под: Пробрасываем на него порт: И пробуем с рабочей машины: Супер – метрики есть. Осталось их собрать. Настройка Prometheus У нас на каждом AWS Elastic Kubernetes кластере свой Prometheus, который запускается… Читать далее »

Prometheus: Recording Rules и теги – разделяем алерты в Slack

26 ноября 2021
 

 С 2018 года используем Opsgenie, который получает алерты от Prometheus, CloudWatch и Uptrends, которые потом через Slack-интеграцию отправляет нам в Slack. Интеграции Slack на данный момент выглядят так: В каждой из них настроен фильтр по уровню важности, например интеграция P1, P2 > Slack #devops-alarms-warning: Но есть проблема: так как каналы получаются общие, то все алерты… Читать далее »

AWS: Trusted Advisor, часть 2 – алерты CloudWatch и уведомления в Slack

25 ноября 2021
 

 В продолжение темы по работе с AWS TrustedAdvisor – рассмотрим настройку отправки уведомлений и обновление данных в Trusted Advisor. Начало – AWS: Trusted Advisor, часть 1 – обзор возможностей. Что бы настроить уведомления – используем метрики Trusted Advisor, которые он шлёт в CloudWatch, см. список на странице Trusted Advisor metrics and dimensions. Далее, CloudWatch будет… Читать далее »

AWS: Trusted Advisor, часть 1 – обзор возможностей

25 ноября 2021
 

 AWS Trusted Advisor – инструмент от AWS, позволяющий проверить аккаунт и используемые в нём ресурсы на предмет оптимизации расходов, производительности, безопасности и отказоустойчивости. При этом доступные вам рекомендации зависят от типа Support Plan вашего аккаунта. К счастью, у нас Premium, так что есть возможность показать все детали Trusted Advisor. Общая документация тут – Проверки AWS… Читать далее »

AWS: Cost optimization – обзор Bills, Cost Explorer и контроль расходов

2 ноября 2021
 

 Продолжим серию по оптимизации расходов в AWS. Предыдущие посты –AWS: оптимизация расходов – покупка и анализ RDS Reserved Instances, AWS: Cost Explorer – проверка расходов на примере CloudWatch Logs, AWS: Cost optimization – обзор расходов на сервисы и стоимость трафика в AWS. Теперь, когда мы разобрались за что мы вообще платим в AWS – посмотрим,… Читать далее »

AWS: Lambda – копирование тегов EC2 на EBS, часть 2 – создание Lambda-функции

11 октября 2021
 

 Продолжаем создавать Lambda-функцию для копирования тегов EC2 на EBS. В первой части – AWS: Lambda – копирование тегов EC2 на EBS, часть 1 – Python и boto3, мы написали Python-скрипт, который умеет получать список всех EC2 в регионе, и потом для каждого ЕС2 получает список всех его EBS, на которые копирует теги плюс добавляет один… Читать далее »

Prometheus: prometheus_replica и дублирование метрик

4 августа 2021
 

 После запуска Prometheus в виде трёх подов, см. Prometheus: ошибки «federation failed: broken pipe» и «Received SIGTERM, exiting gracefully» — постоянные рестарты – метрики начали дублироваться: Одна метрика получена от инстанса prometheus_replica=”prometheus-prometheus-prometheus-oper-prometheus-1″, вторая – от prometheus_replica=”prometheus-prometheus-prometheus-oper-prometheus-2″, так как запущено три пода: И в Grafana потом неправильно рисуются графики – вместо одного получаем три: Для решения… Читать далее »

AWS: WAF WebACL логи и Logz.io

21 июля 2021
 

 Продолжаем разбираться с AWS WAF. В посте AWS: обзор и настройка Web Application Firewall и его мониторинга ознакомились с основными компонентами, настроили ACL и Rules, подключили базовый мониторинг. Там же настроили сбор логов WAF в AWS Kinesis, теперь хочется их увидеть в Logz.io, пока недоступен CloudWatch Logs. В этом посте ещё раз настроим отправку логов… Читать далее »