Архів теґу: monitoring

GitLab: gitlab-shell timeouts та /metrics Connection refused

21 Березня 2023
 

 Запустились ми в production, і вилізла дуже неприємна бага – при git операціях clone/pull/push запит іноді зависав на 1-2 хвилини. Виглядало це як якась “плавуюча” бага, тобто 5 раз могло склонити нормально, а потім раз зависає. Проблеми gitlab-shell timeouts Наприклад – раз нормально: [simterm] $ time git clone [email protected]:example/platform/tables-api.git Cloning into ‘tables-api’… … real 0m1.380s… Читати далі »

GitLab: моніторинг – Prometheus, метрики, та Grafana dashboard

11 Березня 2023
 

 Отже, продовжуємо нашу подорож з міграцією GitLab до себе в Kubernetes. Див. попередні частини: GitLab: компоненти, архітектура, інфраструктура та запуск з Helm-чарту в Minikube GitLab: Helm-чарт values, залежності та деплой у Kubernetes з AWS S3 GitLab: міграція даних з GitLab cloud та процес backup-restore у self-hosted версії в Kubernetes В цілому – все працює, і… Читати далі »

Prometheus: створення Custom Prometheus Exporter на Python

18 Лютого 2023
 

 У Прометеуса є багато готових до використання експортерів, але інколи може з’явитися потреба у зборі своїх власних метрик. Для цього Прометеус надає клієнтські бібліотеки, які можемо використати для генерації метрик з потрібними лейблами. Експортер можна включити прямо в код вашого додатку, або можна запускати окремим сервісом, який буде звертатися до якогось вашого сервісу і отримувати… Читати далі »

Kubernetes: моніторинг вартості кластеру – Kubernetes Resource Report та Kubecost

23 Січня 2023
 

  Дуже правильне діло – моніторити, наскільки ефективно використовується кластер, особливо, якщо ресурси деплояться розробниками, які не сильно вникають у requests, і встановлюють завищені значення “про запас”. Запас, звичайно, потрібен, але й просто так реквестити ресурси ідеї погана. Наприклад, у вас є WorkerNode з 4 vCPU (4000 milicpu) та 16 ГБ оперативної пам’яті, і ви… Читати далі »

Grafana Loki: можливості LogQL для роботи з логами та створення метрик для алертів

30 Грудня 2022
 

 Добре – Loki запускати навчились – Grafana Loki: архітектура та запуск в Kubernetes з AWS S3 storage та boltdb-shipper, як налаштовувати алерти теж розібрались – Grafana Loki: алерти з Ruler та labels з логів. Тепер час розібратися з тим, що взагалі ми можемо робити в Loki використовуючи її LogQL. Підготовка Далі для прикладів будемо використовувати два… Читати далі »

Grafana Loki: алерти з Ruler та labels з логів

28 Грудня 2022
 

 Загальну інформацію по Grafana Loki див. у Grafana Loki: архітектура та запуск в Kubernetes з AWS S3 storage та boltdb-shipper. Серед інших сервісів, які складають собою Loki, є окремий сервіс ruler, який відповідає за роботу з алертами, які можно генерити прямо з логів. Ідея дуже проста: створюємо файл з алертами в  Prometheus-like форматі підключаємо його… Читати далі »

Grafana Loki: архітектура та запуск в Kubernetes з AWS S3 storage та boltdb-shipper

25 Грудня 2022
 

  Останній раз працював з Loki коли вона була ще в Beta, і виглядала вона тоді набагато простіше, ніж зараз. У новому проекті системи логування немає взагалі, а так як у нас усі люблять Grafana-стек – то вирішили і для логів підняти Loki. Правда мені думалося, що все буде набагато простіше. Виявилося – ні. Багато… Читати далі »

Prometheus: моніторинг ендпоінтів в Kubernetes з blackbox-exporter

10 Грудня 2022
 

 Про blackbox-exporter я вже колись писав, див. Prometheus: Alertmanager и blackbox-exporter – проверка срока действия SSL и нотификация в Slack, але там було чисто про моніторинг SSL-сертіфікатів, та й було то давно, та й сетапилось все без Кубернетісу та Хельму. Цього разу трохи детальніше про його сетап і можливості. Отже, blackbox-exporter – це експортер, який… Читати далі »

PostgreSQL: запуск в Kubernetes з PostgreSQL Operator та моніторинг з Prometheus

21 Вересня 2022
 

 Отже, Друід ми запустили – див. Apache Druid: огляд, запуск в Kubernetes та моніторинг з Prometheus. Поки що в дефолтному вигляді, тобто в ролі сторейджа для метаданих використовується локальна база Apache Derby. Далі будемо переключати Друід на PostgreSQL, ще згодом – прибирати звідти ZooKeeper. Ну а для початку – запустимо кластер PostgreSQL в Kubernetes, додамо… Читати далі »

AWS: VPC Flow Logs – знайомство та аналітика з CloudWatch Logs Insights

10 Червня 2022
 

 AWS VPC Flow Logs – сервіс Amazon, який дозволяє логувати інформацію про трафік між мережевими інтерфейсами у AWS VPC. Далі, ці логи можуть бути передані у AWS CloudWatch Logs для подальшого аналізу, при цьому логування трафіку ніяк не впливає на швидкість роботи мережі. Коротко розглянемо основні поняття, доступні опції та налаштуємо Flow Logs для VPC… Читати далі »