Для чего курс
Понимать принципы работы мониторинга должны все, кто работает над проектом: разработчики, инженеры эксплуатации. Видеокурс по Prometheus позволит быстро познакомиться с этим инструментом.
Разберем, чем Prometheus отличается от других систем мониторинга, как его установить и настроить, какие метрики стоит собирать с его помощью, а какие — нет, как хранить метрики, как писать запросы на PromQL, как визуализировать мониторинг с помощью Grafana и как настроить алерты.
Программа курса
1. Введение в Prometheus
2. Exposition
3. Установка и настройка Prometheus
4. Данные Prometheus
5. Алерты Prometheus
6. Grafana
7. Advanced usage
8. Prometheus in Kubernetes
#Обучение #Linux #Prometheus
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3
Казалось бы, что может быть сложного в мониторинге сертификатов? Выдан сертификат – следите за его сроком действия. Многие по старинке используют календари, напоминания, иногда даже физические заметки. Но ручные методы неидеальны, ведь люди ошибаются, забывают и теряют информацию.
И если не автоматизировать такие моменты, то однажды можете проснуться и узнать, что сервис недоступен из-за протухшего сертификата. Давайте разберёмся, что к чему.
Сначала запустим Grafana и Prometheus - это наши главные инструменты для мониторинга. Затем поболтаем об экспортерах и подключим один из них, добавим крутую панельку с графиками. Чтобы всё это дело не пропустить, научим Alertmanager слать нам уведомления в Telegram.
#Linux #Prometheus #Grafana #Docker #Monitoring #Certificate #Telegram
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🎉1
Потребление ресурсов в Prometheus: кто виноват и что делать (обзор и видео доклада)
Небольшое расследование и выяснил, кто виноват в том, что Prometheus «съел» 64 ГБ оперативной памяти на сервере. А главное, что нужно делать, чтобы избегать этого в будущем.
➡️ Далее...
#Prometheus #Monitoring
Небольшое расследование и выяснил, кто виноват в том, что Prometheus «съел» 64 ГБ оперативной памяти на сервере. А главное, что нужно делать, чтобы избегать этого в будущем.
Содержание:
- Начинаем расследование: архитектура Prometheus и расход ресурсов
- Ищем подозреваемого: особенности работы TSDB
- Ищем подозреваемого: работа с данными
- Ищем подозреваемого: работа с labelsets
- Кто виноват: cardinality
- Кто виноват: churn
- Кто виноват: remote_write (бонус)
- Что делать: анализируем потребление ресурсов
- Что делать: избавляемся от лишнего
- Как теперь расследовать инциденты
- Выводы
#Prometheus #Monitoring
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤2💯1🤝1😎1
Релиз системы мониторинга с открытым исходным кодом Prometheus 3.0
➡️ Подробнее
#Prometheus #Monitoring@ITKB_channel
14 ноября 2024 года состоялся релиз системы мониторинга серверов и приложений с открытым исходным кодом Prometheus 3.0. Исходный код решения написан на Go и TypeScript и опубликован на GitHub под лицензией Apache License 2.0. Предыдущая мажорная версия проекта Prometheus 2.0 вышла в ноябре 2017 года.
#Prometheus #Monitoring@ITKB_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤4
Мониторинг сетевого оборудования MikroTik с использованием MikroTik API, MKTXP, Prometheus и Grafana
➡️ Источник
#MikroTik #Grafana #Prometheus #Monitoring #DevOps
Представьте: пятница, вечер, вы уже мысленно с бокалом чего-то крепкого и вкусного наслаждаетесь прокрастинацией. Ничего не предвещало беды, но жизни любого администратора наступает момент, когда нужно поиграть в игру "Угадай на каком этаже пропал интернет". И что бы победить непредсказуемость сетевых устройств, умные люди придумали Grafana для визуализации различных метрик, и различные экспортеры этих метрик. В данной статье рассмотрим экспортёр метрик MKTXP, который настраивается в 2 кнопки.
#MikroTik #Grafana #Prometheus #Monitoring #DevOps
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🎄6 3🗿2❤1
Онлайн-тренажер Prometheus
➡️ Скачать
⭐️ Полное руководство по Prometheus
#prometheus
Научитесь:
- устанавливать и настраивать систему мониторинга Prometheus.
- разбираться в инцидентах и понимать причину, а также получать уведомления о неработоспособности серверов через мессенджеры.
- создавать графики для визуализации данных.
- собирать и использовать метрики.
- защищать себя и данные извне.
Prometheus — система мониторинга серверов и программ с открытым исходным кодом.
#prometheus
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11⚡6❤4🔥1
Мониторинг сетевого оборудования MikroTik с использованием MikroTik API, MKTXP, Prometheus и Grafana
➡️ Подробнее
#MikroTik #Prometheus #Grafana #Monitoring
Представьте: пятница, вечер, вы уже мысленно с бокалом чего-то крепкого и вкусного наслаждаетесь прокрастинацией. Ничего не предвещало беды, но жизни любого администратора наступает момент, когда нужно поиграть в игру "Угадай на каком этаже пропал интернет". И что бы победить непредсказуемость сетевых устройств, умные люди придумали Grafana для визуализации различных метрик, и различные экспортеры этих метрик. В данной статье рассмотрим экспортёр метрик MKTXP, который настраивается в 2 кнопки.
#MikroTik #Prometheus #Grafana #Monitoring
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤3⚡2
Кто ест трафик в организации? Готовим пользовательский экспортер для Prometheus, мониторим сеть
➡️ Подробнее
#Monitoring #Prometheus #DevOps
«Недавно меня попросили помочь в определении источников утечки трафика в одной из организаций. Задачу усугубляло большое количество устройств в одном широковещательном домене, множество неуправляемых коммутаторов, отсутствие любой карты сети, а также старенький роутер на входе. В общем, это были настоящие "Авдеевы конюшни", но в итоге задача была решена, и данная статья посвящена методам, которые я использовал. Кто оказался виновником, я раскрою в конце статьи, чтобы не портить интригу.»
#Monitoring #Prometheus #DevOps
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍6❤3
Основная функциональность:
— Генерация миллионов метрик с высокой нагрузкой
— Проверка производительности приема данных и запросов в API
— Настройка количества метрик, частоты, меток и запросов
Полезен для тех, кто хочет понять пределы своей системы мониторинга, подобрать оптимальные настройки или сравнить производительность разных решений.
#Prometheus #VictoriaMetrics #Monitoring
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤4
Prometheus: How We Slashed Memory Usage
➡️ Подробнее под катом 🇺🇸
#prometheus #monitoring #observability
Prometheus является компонентом многих стеков обеспечения наблюдаемости, но имеет скрытую стоимость: использование памяти. В корпоративных средах Kubernetes это превращается в бомбу замедленного действия. Это похоже на игру в кошки-мышки - какую бы память вы ей ни предоставили, она ее съедает.
Вот как мы обнаружили и обезвредили его.
#prometheus #monitoring #observability
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3👌2
Promxy - прокси-серверPrometheus
, который позволяет нескольким узламPrometheus
выглядеть как одна конечная точкаAPI
для пользователя.
Это значительно упрощает операции и использование
Prometheus
в multinode
инсталции (когда у вас более одного хоста Prometheus
). Promxy
предоставляет эту унифицированную конечную точку доступа, не требуя никаких дополнительных модулей, пользовательских сборок или других изменений в вашей инфраструктуре Prometheus
.Сам
Prometheus
не предоставляет никакой реальной поддержки HA/кластеризации. Таким образом, лучшей практикой является запуск нескольких (например, N
) хостов с одинаковой конфигурацией. Аналогично, у Prometheus
нет настоящей встроенной федерации запросов, что означает, что в итоге вы получаете N
источников в Grafana
, что сбивает с толку пользователей Grafana
и не поддерживает агрегацию по всем источникам. Promxy
обеспечивает настройку HA Prometheus
путем «слияния» данных с дублирующихся хостов (так что если в одном из них есть пробел, Promxy
заполнит его другим). Кроме того, Promxy
предоставляет единый источник данных для всех запросов Promql
— это означает, что у Grafana
может быть один источник, а у вас могут быть глобально агрегированные запросы Promql
.#Monitoring #Prometheus #Grafana #Promxy
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3
Инженеры по производительности баз данных — настоящие детективы. Они расследуют медленные запросы, ищут узкие места и находят способы ускорить работу системы. Каждый день они сталкиваются с новыми вызовами: от точечной настройки индексов до масштабных операций по шардированию данных.
В мире баз данных у каждого типа хранилища своя ниша.
С базами все как в жизни — профилактика лучше лечения. Грамотный мониторинг и регулярные проверки производительности помогут заметить проблемы до того, как они станут критичными. А правильно настроенные индексы и партиционирование данных защитят от внезапных просадок производительности.
Репликация и бэкапы — основа отказоустойчивости. В штатном режиме они кажутся лишней перестраховкой, но в критической ситуации становятся последней линией защиты данных.
Интересна тема БД и тонкостей их настройки, инструментов диагностики, популярных проблем и стратегий масштабирования?
Да👍 / Нет👻 (ставим реакции)
#БД #PostgreSQL #MongoDB #InfluxDB #MySQL #ClickHouse #Vertica #Prometheus #Elasticsearch
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38❤3
Продолжим обсуждение мониторинга жестких дисков HDD/SSD
Мониторинг дисков в Prometheus + Grafana
Если в инфраструктуре уже есть Prometheus, можно использовать node_exporter с поддержкой S.M.A.R.T.:
⚫️ Устанавливаем node_exporter:
⚫️ Добавляем в конфиг Prometheus новый таргет (prometheus.yml):
⚫️ Настраиваем Grafana для визуализации
В Grafana импортируем готовый Dashboard 12430 “SMART Monitoring”.
Использование AI для предсказания отказов
Если нужно автоматически анализировать аномалии, можно использовать AI-модель для предсказания отказов.
1. Собираем данные за 6-12 месяцев с проблемных и рабочих дисков.
2. Обучаем ML-модель на основе реальных данных.
3. Настраиваем прогнозирование аномалий через TensorFlow/Scikit-Learn и уведомления в Telegram/Slack.
Пример простого скрипта на Python, который анализирует S.M.A.R.T. и ищет аномалии:
#Monitoring #Prometheus #Grafana #DevOps
Мониторинг дисков в Prometheus + Grafana
Если в инфраструктуре уже есть Prometheus, можно использовать node_exporter с поддержкой S.M.A.R.T.:
wget https://github.com/prometheus/node_exporter/releases/latest/download/node_exporter-linux-amd64.tar.gz
tar xvf node_exporter-linux-amd64.tar.gz
cd node_exporter-linux-amd64
sudo ./node_exporter --collector.smartmon
scrape_configs:
- job_name: 'node'
static_configs:
- targets: ['localhost:9100']
В Grafana импортируем готовый Dashboard 12430 “SMART Monitoring”.
Теперь мы видим наглядную динамику параметров S.M.A.R.T. и можем заранее предсказать сбои.
Использование AI для предсказания отказов
Если нужно автоматически анализировать аномалии, можно использовать AI-модель для предсказания отказов.
1. Собираем данные за 6-12 месяцев с проблемных и рабочих дисков.
2. Обучаем ML-модель на основе реальных данных.
3. Настраиваем прогнозирование аномалий через TensorFlow/Scikit-Learn и уведомления в Telegram/Slack.
Пример простого скрипта на Python, который анализирует S.M.A.R.T. и ищет аномалии:
import pandas as pd
from sklearn.ensemble import IsolationForest
# Загружаем данные S.M.A.R.T.
df = pd.read_csv("smart_data.csv")
# Выбираем критичные параметры
features = ["Reallocated_Sectors", "Pending_Sectors", "Uncorrectable_Sectors"]
# Обучаем модель аномалий
model = IsolationForest(contamination=0.01)
model.fit(df[features])
# Предсказываем аномалии
df["anomaly"] = model.predict(df[features])
# Выводим проблемные диски
print(df[df["anomaly"] == -1])
P.S. Вы следите за состоянием дисковой подсистемы?
Да👍 / Нет👻
#Monitoring #Prometheus #Grafana #DevOps
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22⚡3👻3❤2
Вышла новая версия AlertCLI - консольной утилиты для просмотра алертов (CLI для управления Alertmanager)
📱 Git
➡️ AlertCLI описание
#AlertCLI #AlertManager #Prometheus #Monitoring #Linux #DevOps
Alertmanager – это компонент системы мониторинга Prometheus, который занимается обработкой, группировкой, маршрутизацией и отправкой уведомлений.
alertcli alerts list -A -u https://alertmanager.k8s.dev.corp | grep -v ScrapePoolHasNoTargets
ALERT SEVERITY STATE SINCE INSTANCE SUMMARY SILENCED BY INHIBITED BY
KubernetesJobFailed warning active 25h0m0s victoria-metrics-k8s-stack-kube-state-metrics.victoria-metrics.svc:8080 Kubernetes Job failed (instance victoria-metrics-k8s-stack-kube-state-metrics.victoria-metrics.svc:8080)
#AlertCLI #AlertManager #Prometheus #Monitoring #Linux #DevOps
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍5👀2