IT-KB 🤖
6.81K subscribers
636 photos
76 videos
6 files
787 links
Бесплатное обучение по Windows, Linux, сети, программирование, DevOps от IT-KB.RU

Наши ресурсы:
Блог -> it-kb.ru
Wiki -> wiki.it-kb.ru
Соц.сети -> vk.com/blogitkb
Купить рекламу: https://telega.in/c/ITKB_channel

💾 - @ITKB_Archive

👨‍💻 @itkb_ceo 👀
加入频道
🤖 Курс "Изучаем Prometheus"

Для чего курс
Понимать принципы работы мониторинга должны все, кто работает над проектом: разработчики, инженеры эксплуатации. Видеокурс по Prometheus позволит быстро познакомиться с этим инструментом.
Разберем, чем Prometheus отличается от других систем мониторинга, как его установить и настроить, какие метрики стоит собирать с его помощью, а какие — нет, как хранить метрики, как писать запросы на PromQL, как визуализировать мониторинг с помощью Grafana и как настроить алерты.

Программа курса
1. Введение в Prometheus
2. Exposition
3. Установка и настройка Prometheus
4. Данные Prometheus
5. Алерты Prometheus
6. Grafana
7. Advanced usage
8. Prometheus in Kubernetes

⬇️ Скачать
👀 Посмотреть

#Обучение #Linux #Prometheus
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63
🔥 Мониторим сертификаты с помощью Prometheus и Telegram

Казалось бы, что может быть сложного в мониторинге сертификатов? Выдан сертификат – следите за его сроком действия. Многие по старинке используют календари, напоминания, иногда даже физические заметки. Но ручные методы неидеальны, ведь люди ошибаются, забывают и теряют информацию.

И если не автоматизировать такие моменты, то однажды можете проснуться и узнать, что сервис недоступен из-за протухшего сертификата. Давайте разберёмся, что к чему.

Сначала запустим Grafana и Prometheus - это наши главные инструменты для мониторинга. Затем поболтаем об экспортерах и подключим один из них, добавим крутую панельку с графиками. Чтобы всё это дело не пропустить, научим Alertmanager слать нам уведомления в Telegram.

👀 Подробнее

#Linux #Prometheus #Grafana #Docker #Monitoring #Certificate #Telegram
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🎉1
Потребление ресурсов в Prometheus: кто виноват и что делать (обзор и видео доклада)

Небольшое расследование и выяснил, кто виноват в том, что Prometheus «съел» 64 ГБ оперативной памяти на сервере. А главное, что нужно делать, чтобы избегать этого в будущем.

Содержание:

- Начинаем расследование: архитектура Prometheus и расход ресурсов
- Ищем подозреваемого: особенности работы TSDB
- Ищем подозреваемого: работа с данными
- Ищем подозреваемого: работа с labelsets
- Кто виноват: cardinality
- Кто виноват: churn
- Кто виноват: remote_write (бонус)
- Что делать: анализируем потребление ресурсов
- Что делать: избавляемся от лишнего
- Как теперь расследовать инциденты
- Выводы


➡️Далее...

#Prometheus #Monitoring
Please open Telegram to view this post
VIEW IN TELEGRAM
👍92💯1🤝1😎1
Релиз системы мониторинга с открытым исходным кодом Prometheus 3.0

14 ноября 2024 года состоялся релиз системы мониторинга серверов и приложений с открытым исходным кодом Prometheus 3.0. Исходный код решения написан на Go и TypeScript и опубликован на GitHub под лицензией Apache License 2.0. Предыдущая мажорная версия проекта Prometheus 2.0 вышла в ноябре 2017 года.


➡️ Подробнее

#Prometheus #Monitoring@ITKB_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍144
Мониторинг сетевого оборудования MikroTik с использованием MikroTik API, MKTXP, Prometheus и Grafana

Представьте: пятница, вечер, вы уже мысленно с бокалом чего-то крепкого и вкусного наслаждаетесь прокрастинацией. Ничего не предвещало беды, но жизни любого администратора наступает момент, когда нужно поиграть в игру "Угадай на каком этаже пропал интернет". И что бы победить непредсказуемость сетевых устройств, умные люди придумали Grafana для визуализации различных метрик, и различные экспортеры этих метрик. В данной статье рассмотрим экспортёр метрик MKTXP, который настраивается в 2 кнопки.


➡️Источник

#MikroTik #Grafana #Prometheus #Monitoring #DevOps
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🎄63🗿21
Онлайн-тренажер Prometheus

Научитесь:
- устанавливать и настраивать систему мониторинга Prometheus.
- разбираться в инцидентах и понимать причину, а также получать уведомления о неработоспособности серверов через мессенджеры.
- создавать графики для визуализации данных.
- собирать и использовать метрики.
- защищать себя и данные извне.

➡️ Скачать

Prometheus — система мониторинга серверов и программ с открытым исходным кодом.

⭐️Полное руководство по Prometheus

#prometheus
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1164🔥1
Мониторинг сетевого оборудования MikroTik с использованием MikroTik API, MKTXP, Prometheus и Grafana

Представьте: пятница, вечер, вы уже мысленно с бокалом чего-то крепкого и вкусного наслаждаетесь прокрастинацией. Ничего не предвещало беды, но жизни любого администратора наступает момент, когда нужно поиграть в игру "Угадай на каком этаже пропал интернет". И что бы победить непредсказуемость сетевых устройств, умные люди придумали Grafana для визуализации различных метрик, и различные экспортеры этих метрик. В данной статье рассмотрим экспортёр метрик MKTXP, который настраивается в 2 кнопки.


➡️Подробнее

#MikroTik #Prometheus #Grafana #Monitoring
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1232
Кто ест трафик в организации? Готовим пользовательский экспортер для Prometheus, мониторим сеть

«Недавно меня попросили помочь в определении источников утечки трафика в одной из организаций. Задачу усугубляло большое количество устройств в одном широковещательном домене, множество неуправляемых коммутаторов, отсутствие любой карты сети, а также старенький роутер на входе. В общем, это были настоящие "Авдеевы конюшни", но в итоге задача была решена, и данная статья посвящена методам, которые я использовал. Кто оказался виновником, я раскрою в конце статьи, чтобы не портить интригу.»


➡️Подробнее

#Monitoring #Prometheus #DevOps
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍63
⚙️ prometheus-benchmark — утилита от VictoriaMetrics для стресс-тестирования Prometheus и других систем мониторинга, совместимых с его API.

Основная функциональность:
— Генерация миллионов метрик с высокой нагрузкой
— Проверка производительности приема данных и запросов в API
— Настройка количества метрик, частоты, меток и запросов


Полезен для тех, кто хочет понять пределы своей системы мониторинга, подобрать оптимальные настройки или сравнить производительность разных решений.

#Prometheus #VictoriaMetrics #Monitoring
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94
Prometheus: How We Slashed Memory Usage

Prometheus является компонентом многих стеков обеспечения наблюдаемости, но имеет скрытую стоимость: использование памяти. В корпоративных средах Kubernetes это превращается в бомбу замедленного действия. Это похоже на игру в кошки-мышки - какую бы память вы ей ни предоставили, она ее съедает.

Вот как мы обнаружили и обезвредили его.


➡️Подробнее под катом 🇺🇸

#prometheus #monitoring #observability
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3👌2
Promxy - прокси-сервер Prometheus, который позволяет нескольким узлам Prometheus выглядеть как одна конечная точка API для пользователя.


Это значительно упрощает операции и использование Prometheus в multinode инсталции (когда у вас более одного хоста Prometheus). Promxy предоставляет эту унифицированную конечную точку доступа, не требуя никаких дополнительных модулей, пользовательских сборок или других изменений в вашей инфраструктуре Prometheus.

Сам Prometheus не предоставляет никакой реальной поддержки HA/кластеризации. Таким образом, лучшей практикой является запуск нескольких (например, N) хостов с одинаковой конфигурацией. Аналогично, у Prometheus нет настоящей встроенной федерации запросов, что означает, что в итоге вы получаете N источников в Grafana, что сбивает с толку пользователей Grafana и не поддерживает агрегацию по всем источникам. Promxy обеспечивает настройку HA Prometheus путем «слияния» данных с дублирующихся хостов (так что если в одном из них есть пробел, Promxy заполнит его другим). Кроме того, Promxy предоставляет единый источник данных для всех запросов Promql — это означает, что у Grafana может быть один источник, а у вас могут быть глобально агрегированные запросы Promql.

📱 Подробнее

P.S. Как решение для миграции тоже годится.

#Monitoring #Prometheus #Grafana #Promxy
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53
💻База данных (БД) — сердце любой системы, и когда оно начинает барахлить, страдает весь организм. А ведь так часто бывает: приложение растет, данных становится больше, и в один прекрасный момент запросы, которые раньше выполнялись за миллисекунды, превращаются в минутные пытки.

Инженеры по производительности баз данных — настоящие детективы. Они расследуют медленные запросы, ищут узкие места и находят способы ускорить работу системы. Каждый день они сталкиваются с новыми вызовами: от точечной настройки индексов до масштабных операций по шардированию данных.

В мире баз данных у каждого типа хранилища своя ниша.

💻 Реляционные базы PostgreSQL и MySQL отлично справляются со структурированными данными и сложными запросами. Они требуют внимательного подхода к настройке индексов и партиционирования, но компенсируют это надежностью и предсказуемостью.

💻NoSQL решения вроде MongoDB созданы для работы с неструктурированными данными и горизонтального масштабирования. Они прекрасно справляются с большими нагрузками, но теряют эффективность при сложных связанных запросах.

💻Колоночные хранилища ClickHouse и Vertica раскрывают свой потенциал в аналитических системах. Они обрабатывают огромные массивы данных на лету при условии правильно спроектированной схемы и настроенных агрегаций.

💻Time-series базы данных InfluxDB и Prometheus специализируются на работе с метриками и логами. Их внутренняя архитектура оптимизирована под запись и чтение временных рядов, что делает их незаменимыми для мониторинга.

С базами все как в жизни — профилактика лучше лечения. Грамотный мониторинг и регулярные проверки производительности помогут заметить проблемы до того, как они станут критичными. А правильно настроенные индексы и партиционирование данных защитят от внезапных просадок производительности.

Репликация и бэкапы — основа отказоустойчивости. В штатном режиме они кажутся лишней перестраховкой, но в критической ситуации становятся последней линией защиты данных.

Интересна тема БД и тонкостей их настройки, инструментов диагностики, популярных проблем и стратегий масштабирования?

Да 👍/ Нет 👻(ставим реакции)


#БД #PostgreSQL #MongoDB #InfluxDB #MySQL #ClickHouse #Vertica #Prometheus #Elasticsearch
Please open Telegram to view this post
VIEW IN TELEGRAM
👍383
Продолжим обсуждение мониторинга жестких дисков HDD/SSD

Мониторинг дисков в Prometheus + Grafana

Если в инфраструктуре уже есть Prometheus, можно использовать node_exporter с поддержкой S.M.A.R.T.:

⚫️Устанавливаем node_exporter:

wget https://github.com/prometheus/node_exporter/releases/latest/download/node_exporter-linux-amd64.tar.gz
tar xvf node_exporter-linux-amd64.tar.gz
cd node_exporter-linux-amd64
sudo ./node_exporter --collector.smartmon


⚫️Добавляем в конфиг Prometheus новый таргет (prometheus.yml):

scrape_configs:
- job_name: 'node'
static_configs:
- targets: ['localhost:9100']


⚫️Настраиваем Grafana для визуализации
В Grafana импортируем готовый Dashboard 12430 “SMART Monitoring”.

Теперь мы видим наглядную динамику параметров S.M.A.R.T. и можем заранее предсказать сбои.


Использование AI для предсказания отказов

Если нужно автоматически анализировать аномалии, можно использовать AI-модель для предсказания отказов.
1. Собираем данные за 6-12 месяцев с проблемных и рабочих дисков.
2. Обучаем ML-модель на основе реальных данных.
3. Настраиваем прогнозирование аномалий через TensorFlow/Scikit-Learn и уведомления в Telegram/Slack.

Пример простого скрипта на Python, который анализирует S.M.A.R.T. и ищет аномалии:

import pandas as pd  
from sklearn.ensemble import IsolationForest

# Загружаем данные S.M.A.R.T.
df = pd.read_csv("smart_data.csv")

# Выбираем критичные параметры
features = ["Reallocated_Sectors", "Pending_Sectors", "Uncorrectable_Sectors"]

# Обучаем модель аномалий
model = IsolationForest(contamination=0.01)
model.fit(df[features])

# Предсказываем аномалии
df["anomaly"] = model.predict(df[features])

# Выводим проблемные диски
print(df[df["anomaly"] == -1])


P.S. Вы следите за состоянием дисковой подсистемы?
Да 👍 / Нет 👻


#Monitoring #Prometheus #Grafana #DevOps
Please open Telegram to view this post
VIEW IN TELEGRAM
👍223👻32
Вышла новая версия AlertCLI - консольной утилиты для просмотра алертов (CLI для управления Alertmanager)

Alertmanager – это компонент системы мониторинга Prometheus, который занимается обработкой, группировкой, маршрутизацией и отправкой уведомлений.


alertcli alerts list -A -u https://alertmanager.k8s.dev.corp | grep -v ScrapePoolHasNoTargets
ALERT SEVERITY STATE SINCE INSTANCE SUMMARY SILENCED BY INHIBITED BY
KubernetesJobFailed warning active 25h0m0s victoria-metrics-k8s-stack-kube-state-metrics.victoria-metrics.svc:8080 Kubernetes Job failed (instance victoria-metrics-k8s-stack-kube-state-metrics.victoria-metrics.svc:8080)

📱 Git
➡️AlertCLI описание

#AlertCLI #AlertManager #Prometheus #Monitoring #Linux #DevOps
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍5👀2