Записки админа
12.8K subscribers
657 photos
29 videos
227 files
2.49K links
Пишу о Linux и администрировании серверов.

Связаться с автором: @servers

Заметки в браузере: https://sysadmin.pm/

Буст канала: https://yangx.top/sysadminnotes?boost
加入频道
🛠 Failover. What is it? How does it work? When to use it and when not to use it?

Неплохая статья об отказоустойчивости, аварийном переключении и способах организации оного для обеспечения доступности ресурсов. На пальцах, с картинками и дополнительными ссылками...

https://blog.alexewerlof.com/p/failover

#sre #напочитать #failover
11
🧾 Чеклист практик, знаний, умений и навыков SRE...

https://github.com/bregman-arie/sre-checklist

#sre #напочитать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥3👏2👎1
🔨 Inside Disney’s Site Reliability Engineering practice - SRE в Disney в качестве вечернего чтива для камрадов...

https://www.srepath.com/inside-disneys-site-reliability-engineering-practice/

#sre #напочитать
4👍2
👨🏼‍💻 Случайные истории людей, работающих в SRE. Для чтения за кофейком или за обедом, например...

https://www.srestories.dev/archive

#sre #напочитать
👍6
📺 Why Is My App SLOw? Defining Reliability in Platform Engineering • Jez Humble • GOTO 2023

Понравился доклад. Он о том, как инженеры Google строят процессы так, что о проблемах на платформе узнают быстрее чем пользователи заметят это. Там же про регрессии, их отслеживание, SLO и много всего интересного, на мой взгляд.

В комментарии закину ссылки на плейлисты конференций GOTO, вдруг что-то ещё для себя интересное найдёте...

#sre #видео #perf
👍10
Incident post-mortem template.docx
287.7 KB
А вот тут простейший шаблон для оформления инцидента. Наткнулся на него вот в этой статье...

https://incident.io/blog/incident-post-mortem-template

#sre #postmortem #incident
👍18
🗜И ещё немного про реагирование на инциденты и работу команды при этом - A guide to running Incident Command.

Что делать команде, в случае какого-либо инцидента, что делать координатору (Incident Commander), как можно построить процесс работы над инцидентом в принципе.

#sre #напочитать #incident
👍7
statuspages101.pdf
2.2 MB
Пара статей с рекомендациями по созданию статус-страниц для инцидентов...

- Status Pages 101: How to Create a Status Page You and Your Customers Will Actually Want to Use.
- Your guide to better incident status pages.

#sre #incident #statuspage
8🔥2
⌚️ Service Level Calculator - SLI калькулятор прямо в браузере. Автор презентовал его в отдельной статье - Introducing Service Level Calculator. PDF со статьёй закину в комментарии к сообщению.

#sla #sre #напочитать
👍7🔥4
⚙️ Бывало ли у вас такое - вы пользуетесь каким-то сервисом (или видите как ваши друзья, дети, родители пользуются им), и на секунду вы задумываетесь, а как оно работает, как оно спроектировано под капотом? Здорово, если сервис ведёт какой-то технический блог, в котором делится своими рабочими процессами.

Вот, например, статья о том, как проектируется инфраструктура Roblox - How We’re Making Roblox’s Infrastructure More Efficient and Resilient. Не то что бы там раскрывают какие-то тайны и секреты, но почитать всё равно интересно.

#напочитать #infra #sre
🤔11👍2🌚1
9️⃣ Rule of 10x per 9 - ещё раз о девятках в SLO, и о том, что каждая 9, конечно же, подразумевает увеличение надёжности и доступности системы, но в то же время, увеличивает стоимость всего происходящего в 10 раз.

#sre #slo #напочитать
👍6
🧷 4 Instructive Postmortems on Data Downtime and Loss - четыре разных истории и четыре разных postmortem для инцидентов (потеря данных, проблемы с доступностью и всё вот это вот). На странице по ссылке краткий пересказ каждого из случаев и там же ссылки на полные отчёты от компаний.

P. S. Ссылка на описание инцидента в Gitlab у меня возвращает 404 почему-то, так что закинул PDF с этой страницей в комментарии.

#sre #postmortem #напочитать
👍8😁1
⚙️ Linux Crisis Tools - утилиты, которые окажутся полезны, когда инцидент на сервере уже случился. Брендан Грегг в своей статье рекомендует установить их заранее...

https://www.brendangregg.com/blog/2024-03-24/linux-crisis-tools.html

#tools #sre #напочитать
👍22
📊 И вот ещё для чтения перед сном, объяснение использования метрик SLO, SLI, Toli и так называемого "Error Budget" - Don’t Get Lost in the Metrics Maze: A Practical Guide to SLOs, SLIs, Error Budgets, and Toil.

https://medium.com/@lokesh12/dont-get-lost-in-the-metrics-maze-a-practical-guide-to-slos-slis-error-budgets-and-toil-939ecd0181eb

#sre #metrics #напочитать
👍71
Why didn't you status? Занятный взгляд на организацию statuspage. Что стоит учитывать при организации страницы со статусами сервисов, и как не сделать хуже, создавая такой ресурс...

https://hross.substack.com/p/why-didnt-you-status

#statuspage #sre #напочитать
👍5
🔋 Занятный тред на Reddit, где участники сообщества накидали разных советов SRE инженеру, выложившему свою резюме для ревью и отзывов...

https://www.reddit.com/r/sre/comments/1dgwy5b/senior_sre_looking_for_a_resume_review_out_of/

#sre #hr #напочитать
9👎3👍21🤮1