IT-KB 🤖

🤖 Курс "Изучаем Prometheus"

Для чего курс
Понимать принципы работы мониторинга должны все, кто работает над проектом: разработчики, инженеры эксплуатации. Видеокурс по Prometheus позволит быстро познакомиться с этим инструментом.
Разберем, чем Prometheus отличается от других систем мониторинга, как его установить и настроить, какие метрики стоит собирать с его помощью, а какие — нет, как хранить метрики, как писать запросы на PromQL, как визуализировать мониторинг с помощью Grafana и как настроить алерты.

Программа курса
1. Введение в Prometheus
2. Exposition
3. Установка и настройка Prometheus
4. Данные Prometheus
5. Алерты Prometheus
6. Grafana
7. Advanced usage
8. Prometheus in Kubernetes

⬇️

Скачать

👀

Посмотреть

#Обучение #Linux #Prometheus

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤3

3.84K views10:48

IT-KB 🤖

🔥

Мониторим сертификаты с помощью Prometheus и Telegram

Казалось бы, что может быть сложного в мониторинге сертификатов? Выдан сертификат – следите за его сроком действия. Многие по старинке используют календари, напоминания, иногда даже физические заметки. Но ручные методы неидеальны, ведь люди ошибаются, забывают и теряют информацию.

И если не автоматизировать такие моменты, то однажды можете проснуться и узнать, что сервис недоступен из-за протухшего сертификата. Давайте разберёмся, что к чему.

Сначала запустим Grafana и Prometheus - это наши главные инструменты для мониторинга. Затем поболтаем об экспортерах и подключим один из них, добавим крутую панельку с графиками. Чтобы всё это дело не пропустить, научим Alertmanager слать нам уведомления в Telegram.

👀

Подробнее

#Linux #Prometheus #Grafana #Docker #Monitoring #Certificate #Telegram

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17🎉1

4.58K views09:25

IT-KB 🤖

Потребление ресурсов в Prometheus: кто виноват и что делать (обзор и видео доклада)

Небольшое расследование и выяснил, кто виноват в том, что Prometheus «съел» 64 ГБ оперативной памяти на сервере. А главное, что нужно делать, чтобы избегать этого в будущем.

Содержание:

- Начинаем расследование: архитектура Prometheus и расход ресурсов
- Ищем подозреваемого: особенности работы TSDB
- Ищем подозреваемого: работа с данными
- Ищем подозреваемого: работа с labelsets
- Кто виноват: cardinality
- Кто виноват: churn
- Кто виноват: remote_write (бонус)
- Что делать: анализируем потребление ресурсов
- Что делать: избавляемся от лишнего
- Как теперь расследовать инциденты
- Выводы

➡️

Далее...

#Prometheus #Monitoring

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤2💯1🤝1😎1

3.01K viewsedited 08:20

IT-KB 🤖

Релиз системы мониторинга с открытым исходным кодом Prometheus 3.0

14 ноября 2024 года состоялся релиз системы мониторинга серверов и приложений с открытым исходным кодом Prometheus 3.0. Исходный код решения написан на Go и TypeScript и опубликован на GitHub под лицензией Apache License 2.0. Предыдущая мажорная версия проекта Prometheus 2.0 вышла в ноябре 2017 года.

➡️

Подробнее

#Prometheus #Monitoring@ITKB_channel

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14❤4

3.58K views09:40

IT-KB 🤖

Мониторинг сетевого оборудования MikroTik с использованием MikroTik API, MKTXP, Prometheus и Grafana

Представьте: пятница, вечер, вы уже мысленно с бокалом чего-то крепкого и вкусного наслаждаетесь прокрастинацией. Ничего не предвещало беды, но жизни любого администратора наступает момент, когда нужно поиграть в игру "Угадай на каком этаже пропал интернет". И что бы победить непредсказуемость сетевых устройств, умные люди придумали Grafana для визуализации различных метрик, и различные экспортеры этих метрик. В данной статье рассмотрим экспортёр метрик MKTXP, который настраивается в 2 кнопки.

➡️

Источник

#MikroTik #Grafana #Prometheus #Monitoring #DevOps

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12🎄63🗿2❤1

3.56K views17:44

IT-KB 🤖

Онлайн-тренажер Prometheus

Научитесь:
- устанавливать и настраивать систему мониторинга Prometheus.
- разбираться в инцидентах и понимать причину, а также получать уведомления о неработоспособности серверов через мессенджеры.
- создавать графики для визуализации данных.
- собирать и использовать метрики.
- защищать себя и данные извне.

➡️

Скачать

Prometheus — система мониторинга серверов и программ с открытым исходным кодом.

⭐️

Полное руководство по Prometheus

#prometheus

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11⚡6❤4🔥1

3.18K viewsedited 16:39

IT-KB 🤖

Мониторинг сетевого оборудования MikroTik с использованием MikroTik API, MKTXP, Prometheus и Grafana

Представьте: пятница, вечер, вы уже мысленно с бокалом чего-то крепкого и вкусного наслаждаетесь прокрастинацией. Ничего не предвещало беды, но жизни любого администратора наступает момент, когда нужно поиграть в игру "Угадай на каком этаже пропал интернет". И что бы победить непредсказуемость сетевых устройств, умные люди придумали Grafana для визуализации различных метрик, и различные экспортеры этих метрик. В данной статье рассмотрим экспортёр метрик MKTXP, который настраивается в 2 кнопки.

➡️

Подробнее

#MikroTik #Prometheus #Grafana #Monitoring

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤3⚡2

2.44K viewsedited 09:53

IT-KB 🤖

Кто ест трафик в организации? Готовим пользовательский экспортер для Prometheus, мониторим сеть

«Недавно меня попросили помочь в определении источников утечки трафика в одной из организаций. Задачу усугубляло большое количество устройств в одном широковещательном домене, множество неуправляемых коммутаторов, отсутствие любой карты сети, а также старенький роутер на входе. В общем, это были настоящие "Авдеевы конюшни", но в итоге задача была решена, и данная статья посвящена методам, которые я использовал. Кто оказался виновником, я раскрою в конце статьи, чтобы не портить интригу.»

➡️

Подробнее

#Monitoring #Prometheus #DevOps

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8👍6❤3

2.48K viewsedited 10:24

IT-KB 🤖

⚙️

prometheus-benchmark — утилита от VictoriaMetrics для стресс-тестирования Prometheus и других систем мониторинга, совместимых с его API.

Основная функциональность:
— Генерация миллионов метрик с высокой нагрузкой
— Проверка производительности приема данных и запросов в API
— Настройка количества метрик, частоты, меток и запросов

Полезен для тех, кто хочет понять пределы своей системы мониторинга, подобрать оптимальные настройки или сравнить производительность разных решений.

#Prometheus #VictoriaMetrics #Monitoring

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤4

2.87K viewsedited 06:26

IT-KB 🤖

Prometheus: How We Slashed Memory Usage

Prometheus является компонентом многих стеков обеспечения наблюдаемости, но имеет скрытую стоимость: использование памяти. В корпоративных средах Kubernetes это превращается в бомбу замедленного действия. Это похоже на игру в кошки-мышки - какую бы память вы ей ни предоставили, она ее съедает.

Вот как мы обнаружили и обезвредили его.

➡️

Подробнее под катом

🇺🇸

#prometheus #monitoring #observability

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3👌2

1.94K views11:30

IT-KB 🤖

Promxy - прокси-сервер Prometheus, который позволяет нескольким узлам Prometheus выглядеть как одна конечная точка API для пользователя.

Это значительно упрощает операции и использование Prometheus в multinode инсталции (когда у вас более одного хоста Prometheus). Promxy предоставляет эту унифицированную конечную точку доступа, не требуя никаких дополнительных модулей, пользовательских сборок или других изменений в вашей инфраструктуре Prometheus.

Сам Prometheus не предоставляет никакой реальной поддержки HA/кластеризации. Таким образом, лучшей практикой является запуск нескольких (например, N) хостов с одинаковой конфигурацией. Аналогично, у Prometheus нет настоящей встроенной федерации запросов, что означает, что в итоге вы получаете N источников в Grafana, что сбивает с толку пользователей Grafana и не поддерживает агрегацию по всем источникам. Promxy обеспечивает настройку HA Prometheus путем «слияния» данных с дублирующихся хостов (так что если в одном из них есть пробел, Promxy заполнит его другим). Кроме того, Promxy предоставляет единый источник данных для всех запросов Promql — это означает, что у Grafana может быть один источник, а у вас могут быть глобально агрегированные запросы Promql.

📱

Подробнее

P.S. Как решение для миграции тоже годится.

#Monitoring #Prometheus #Grafana #Promxy

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3

2.17K viewsedited 14:17

IT-KB 🤖

💻

База данных (БД) — сердце любой системы, и когда оно начинает барахлить, страдает весь организм. А ведь так часто бывает: приложение растет, данных становится больше, и в один прекрасный момент запросы, которые раньше выполнялись за миллисекунды, превращаются в минутные пытки.

Инженеры по производительности баз данных — настоящие детективы. Они расследуют медленные запросы, ищут узкие места и находят способы ускорить работу системы. Каждый день они сталкиваются с новыми вызовами: от точечной настройки индексов до масштабных операций по шардированию данных.

В мире баз данных у каждого типа хранилища своя ниша.

💻

Реляционные базы PostgreSQL и MySQL отлично справляются со структурированными данными и сложными запросами. Они требуют внимательного подхода к настройке индексов и партиционирования, но компенсируют это надежностью и предсказуемостью.

💻

NoSQL решения вроде MongoDB созданы для работы с неструктурированными данными и горизонтального масштабирования. Они прекрасно справляются с большими нагрузками, но теряют эффективность при сложных связанных запросах.

💻

Колоночные хранилища ClickHouse и Vertica раскрывают свой потенциал в аналитических системах. Они обрабатывают огромные массивы данных на лету при условии правильно спроектированной схемы и настроенных агрегаций.

💻

Time-series базы данных InfluxDB и Prometheus специализируются на работе с метриками и логами. Их внутренняя архитектура оптимизирована под запись и чтение временных рядов, что делает их незаменимыми для мониторинга.

С базами все как в жизни — профилактика лучше лечения. Грамотный мониторинг и регулярные проверки производительности помогут заметить проблемы до того, как они станут критичными. А правильно настроенные индексы и партиционирование данных защитят от внезапных просадок производительности.

Репликация и бэкапы — основа отказоустойчивости. В штатном режиме они кажутся лишней перестраховкой, но в критической ситуации становятся последней линией защиты данных.

Интересна тема БД и тонкостей их настройки, инструментов диагностики, популярных проблем и стратегий масштабирования?

Да 👍/ Нет 👻(ставим реакции)

#БД #PostgreSQL #MongoDB #InfluxDB #MySQL #ClickHouse #Vertica #Prometheus #Elasticsearch

Please open Telegram to view this post

VIEW IN TELEGRAM

👍38❤3

2.39K views09:58

IT-KB 🤖

Продолжим обсуждение мониторинга жестких дисков HDD/SSD

Мониторинг дисков в Prometheus + Grafana

Если в инфраструктуре уже есть Prometheus, можно использовать node_exporter с поддержкой S.M.A.R.T.:

⚫️

Устанавливаем node_exporter:

wget https://github.com/prometheus/node_exporter/releases/latest/download/node_exporter-linux-amd64.tar.gz
tar xvf node_exporter-linux-amd64.tar.gz
cd node_exporter-linux-amd64
sudo ./node_exporter --collector.smartmon

⚫️

Добавляем в конфиг Prometheus новый таргет (prometheus.yml):

scrape_configs:
  - job_name: 'node'
    static_configs:
      - targets: ['localhost:9100']

⚫️

Настраиваем Grafana для визуализации
В Grafana импортируем готовый Dashboard 12430 “SMART Monitoring”.

Теперь мы видим наглядную динамику параметров S.M.A.R.T. и можем заранее предсказать сбои.

Использование AI для предсказания отказов

Если нужно автоматически анализировать аномалии, можно использовать AI-модель для предсказания отказов.
1. Собираем данные за 6-12 месяцев с проблемных и рабочих дисков.
2. Обучаем ML-модель на основе реальных данных.
3. Настраиваем прогнозирование аномалий через TensorFlow/Scikit-Learn и уведомления в Telegram/Slack.

Пример простого скрипта на Python, который анализирует S.M.A.R.T. и ищет аномалии:

import pandas as pd  
from sklearn.ensemble import IsolationForest  

# Загружаем данные S.M.A.R.T.
df = pd.read_csv("smart_data.csv")

# Выбираем критичные параметры
features = ["Reallocated_Sectors", "Pending_Sectors", "Uncorrectable_Sectors"]

# Обучаем модель аномалий
model = IsolationForest(contamination=0.01)
model.fit(df[features])

# Предсказываем аномалии
df["anomaly"] = model.predict(df[features])

# Выводим проблемные диски
print(df[df["anomaly"] == -1])

P.S. Вы следите за состоянием дисковой подсистемы?
Да 👍 / Нет 👻

#Monitoring #Prometheus #Grafana #DevOps

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22⚡3👻3❤2

2.57K views11:42

IT-KB 🤖

Вышла новая версия AlertCLI - консольной утилиты для просмотра алертов (CLI для управления Alertmanager)

Alertmanager – это компонент системы мониторинга Prometheus, который занимается обработкой, группировкой, маршрутизацией и отправкой уведомлений.

alertcli alerts list -A -u https://alertmanager.k8s.dev.corp | grep -v ScrapePoolHasNoTargets
ALERT                                  SEVERITY      STATE    SINCE      INSTANCE                                                                  SUMMARY                                                                                                    SILENCED BY   INHIBITED BY
KubernetesJobFailed                    warning       active   25h0m0s    victoria-metrics-k8s-stack-kube-state-metrics.victoria-metrics.svc:8080   Kubernetes Job failed (instance victoria-metrics-k8s-stack-kube-state-metrics.victoria-metrics.svc:8080)

📱

Git

➡️

AlertCLI описание

#AlertCLI #AlertManager #Prometheus #Monitoring #Linux #DevOps

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍5👀2

2.04K viewsedited 12:44

About

Blog

Apps

Platform