Архив рубрики: Prometheus

Prometheus, a Cloud Native Computing Foundation project, is a systems and service monitoring system. It collects metrics from configured targets at given intervals, evaluates rule expressions, displays the results, and can trigger alerts if some condition is observed to be true.

Kubernetes: мониторинг стоимости кластера — Kubernetes Resource Report и Kubecost
0 (0)

23 января 2023

Очень полезное дело — мониторить то, насколько эффективно используется кластер, особенно, если приложения деплоятся девелоперами, которые не сильно вникают в requests, и устанавливают завышенные значения «про запас». Запас, конечно, нужен — но и просто так реквестить ресурсы идея плохая. К примеру, у вас есть WorkerNode у которой 4 vCPU (4.000 milicpu) и 16 GB RAM,… Читать далее »

Loading

PostgreSQL: запуск в Kubernetes з PostgreSQL Operator и мониторинг с Prometheus
0 (0)

5 октября 2022

Итак, Друид мы запустили. Apache Druid: обзор, запуск в Kubernetes и мониторинг с Prometheus . Пока что в дефолтном виде, то есть в роли сторейджа для метаданных используется локальная база Apache Derby . Дальше будем переключать Друид на PostgreSQL, еще позже – убирать оттуда ZooKeeper. Ну а для начала – запустим кластер PostgreSQL в Kubernetes, добавим PostgreSQL Exporter для Promethues и настроим сбор метрик.… Читать далее »

Loading

Apache Druid: обзор, запуск в Kubernetes и мониторинг с Prometheus
0 (0)

14 сентября 2022

Apache Druid — колоночная база данных, ориентированная на работу с большими объемами данных, сочетающая в себе возможности и преимущества Time-Series Database, Data Warehouse и поисковой системы. Общая задача — настроить мониторинг кластера Druid в Kubernetes, для чего сначала посмотрим что это вообще такое и как оно всё работает, а затем запустим Друид и потрогаем его… Читать далее »

Loading

Prometheus: мониторинг сети с node_exporter — метрики сети CloudWatch и Docker —net=host
0 (0)

16 декабря 2021

Начал обновлять дашборды в Grafana, и столкнулся с двумя интересными вещами. Первое — что же на самом деле показывается в CloudWatch для сети в графиках NetworkIn/Out (Bytes), как эти данные правильно интерпретировать, и как данные CloudWatch коррелируют с данными самого node_exporter? Второе — почему node_exporter должен быть запущен именно в режиме host network mode? Сначала… Читать далее »

Loading

Prometheus: мониторинг AWS Load Balancer Controller Controller в AWS EKS
0 (0)

10 декабря 2021

«Внезапно», но AWS ALB Controller умеет в метрики для Prometheus. Используем стандартный URI /metrics. Для начала — проверим, что метрики в поде есть. Находим под: [simterm] $ kk -n kube-system get pod | grep aws aws-load-balancer-controller-7bdcf75789-wk4bt 1/1 Running 0 41h [/simterm] Пробрасываем на него порт: [simterm] $ kk port-forward -n kube-system pods/aws-load-balancer-controller-7bdcf75789-wk4bt 8080:8080 Forwarding from… Читать далее »

Loading

Prometheus: Recording Rules и теги — разделяем алерты в Slack
0 (0)

26 ноября 2021

С 2018 года используем Opsgenie, который получает алерты от Prometheus, CloudWatch и Uptrends, которые потом через Slack-интеграцию отправляет нам в Slack. Интеграции Slack на данный момент выглядят так: В каждой из них настроен фильтр по уровню важности, например интеграция P1, P2 > Slack #devops-alarms-warning: Но есть проблема: так как каналы получаются общие, то все алерты… Читать далее »

Loading

Prometheus: prometheus_replica и дублирование метрик
0 (0)

4 августа 2021

После запуска Prometheus в виде трёх подов, см. Prometheus: ошибки «federation failed: broken pipe» и «Received SIGTERM, exiting gracefully» — постоянные рестарты — метрики начали дублироваться: Одна метрика получена от инстанса prometheus_replica=»prometheus-prometheus-prometheus-oper-prometheus-1″, вторая — от prometheus_replica=»prometheus-prometheus-prometheus-oper-prometheus-2″, так как запущено три пода: [simterm] $ kubectl -n monitoring get pod | grep oper-prometheus prometheus-prometheus-prometheus-oper-prometheus-0 3/3 Running 1… Читать далее »

Loading

AWS: мониторинг Simple Email Service с CloudWatch и Prometheus
0 (0)

10 июня 2021

Случилась у нас бяда — AWS отключил нам отправку писем через AWS SES из-за bounce-рейта. Проверить это можно в AWS SES > Reputation Dashboard, аккаунт сейчас в статусе Under review: После обращения в тех. поддержку отправку почты нам временно включили, но решить проблему надо, а заодно — следить, что бы подобное не случалось в будущем.… Читать далее »

Loading

Prometheus: ошибки «federation failed: broken pipe» и «Received SIGTERM, exiting gracefully» — постоянные рестарты
0 (0)

7 апреля 2021

Имеется Prometheus сервер, запущенный через Prometheus Operator в Kubernetes-кластере, см. Kubernetes: мониторинг кластера с Prometheus Operator. Prometheus сервера в каждом Kubernetes-кластере через Prometheus federation отправляют данные на центральный сервер. При больших нагрузках, например на нашем Kubernetes Dev кластере, где очень много подов, Prometheus начинает падать с ошибками: level=error ts=2021-03-31T07:31:18.765Z caller=federate.go:192 component=web msg=»federation failed» err=»write tcp… Читать далее »

Loading

Kubernetes: namespace висит в Terminating и неочевидности с metrics-server
0 (0)

23 марта 2021

Столкнулся с весьма интересной проблемой при удалении Kubernetes Namespace. При попытке удалить неймспейс — он зависает в статусе Terminating, и никакие попытки его удалить не помогали. Рассмотрим варианты удаления, и докопаемся до причины. Создаём тестовый namespace: [simterm] $ kubectl create namespace test-ns namespace/test-ns created [/simterm] Пробуем его удалить — и удаление зависает: [simterm] $ kubectl… Читать далее »

Loading