🛠 Failover. What is it? How does it work? When to use it and when not to use it?
Неплохая статья об отказоустойчивости, аварийном переключении и способах организации оного для обеспечения доступности ресурсов. На пальцах, с картинками и дополнительными ссылками...
https://blog.alexewerlof.com/p/failover
#sre #напочитать #failover
Неплохая статья об отказоустойчивости, аварийном переключении и способах организации оного для обеспечения доступности ресурсов. На пальцах, с картинками и дополнительными ссылками...
https://blog.alexewerlof.com/p/failover
#sre #напочитать #failover
https://github.com/bregman-arie/sre-checklist
#sre #напочитать
Please open Telegram to view this post
VIEW IN TELEGRAM
🔨 Inside Disney’s Site Reliability Engineering practice - SRE в Disney в качестве вечернего чтива для камрадов...
https://www.srepath.com/inside-disneys-site-reliability-engineering-practice/
#sre #напочитать
https://www.srepath.com/inside-disneys-site-reliability-engineering-practice/
#sre #напочитать
👨🏼💻 Случайные истории людей, работающих в SRE. Для чтения за кофейком или за обедом, например...
https://www.srestories.dev/archive
#sre #напочитать
https://www.srestories.dev/archive
#sre #напочитать
📺 Why Is My App SLOw? Defining Reliability in Platform Engineering • Jez Humble • GOTO 2023
Понравился доклад. Он о том, как инженеры Google строят процессы так, что о проблемах на платформе узнают быстрее чем пользователи заметят это. Там же про регрессии, их отслеживание, SLO и много всего интересного, на мой взгляд.
В комментарии закину ссылки на плейлисты конференций GOTO, вдруг что-то ещё для себя интересное найдёте...
#sre #видео #perf
Понравился доклад. Он о том, как инженеры Google строят процессы так, что о проблемах на платформе узнают быстрее чем пользователи заметят это. Там же про регрессии, их отслеживание, SLO и много всего интересного, на мой взгляд.
В комментарии закину ссылки на плейлисты конференций GOTO, вдруг что-то ещё для себя интересное найдёте...
#sre #видео #perf
YouTube
Why Is My App SLOw? Defining Reliability in Platform Engineering • Jez Humble • GOTO 2023
This presentation was recorded at GOTO Aarhus 2023. #GOTOcon #GOTOaar
https://gotoaarhus.com
Jez Humble - SRE at Google Cloud & Lecturer at UC Berkeley @JezHumble
RESOURCES
https://continuousdelivery.com
https://github.com/jezhumble
https://linkedin.com/in/jez…
https://gotoaarhus.com
Jez Humble - SRE at Google Cloud & Lecturer at UC Berkeley @JezHumble
RESOURCES
https://continuousdelivery.com
https://github.com/jezhumble
https://linkedin.com/in/jez…
Incident post-mortem template.docx
287.7 KB
А вот тут простейший шаблон для оформления инцидента. Наткнулся на него вот в этой статье...
https://incident.io/blog/incident-post-mortem-template
#sre #postmortem #incident
https://incident.io/blog/incident-post-mortem-template
#sre #postmortem #incident
🗜И ещё немного про реагирование на инциденты и работу команды при этом - A guide to running Incident Command.
Что делать команде, в случае какого-либо инцидента, что делать координатору (Incident Commander), как можно построить процесс работы над инцидентом в принципе.
#sre #напочитать #incident
Что делать команде, в случае какого-либо инцидента, что делать координатору (Incident Commander), как можно построить процесс работы над инцидентом в принципе.
#sre #напочитать #incident
statuspages101.pdf
2.2 MB
Пара статей с рекомендациями по созданию статус-страниц для инцидентов...
- Status Pages 101: How to Create a Status Page You and Your Customers Will Actually Want to Use.
- Your guide to better incident status pages.
#sre #incident #statuspage
- Status Pages 101: How to Create a Status Page You and Your Customers Will Actually Want to Use.
- Your guide to better incident status pages.
#sre #incident #statuspage
⌚️ Service Level Calculator - SLI калькулятор прямо в браузере. Автор презентовал его в отдельной статье - Introducing Service Level Calculator. PDF со статьёй закину в комментарии к сообщению.
#sla #sre #напочитать
#sla #sre #напочитать
⚙️ Бывало ли у вас такое - вы пользуетесь каким-то сервисом (или видите как ваши друзья, дети, родители пользуются им), и на секунду вы задумываетесь, а как оно работает, как оно спроектировано под капотом? Здорово, если сервис ведёт какой-то технический блог, в котором делится своими рабочими процессами.
Вот, например, статья о том, как проектируется инфраструктура Roblox - How We’re Making Roblox’s Infrastructure More Efficient and Resilient. Не то что бы там раскрывают какие-то тайны и секреты, но почитать всё равно интересно.
#напочитать #infra #sre
Вот, например, статья о том, как проектируется инфраструктура Roblox - How We’re Making Roblox’s Infrastructure More Efficient and Resilient. Не то что бы там раскрывают какие-то тайны и секреты, но почитать всё равно интересно.
#напочитать #infra #sre