😖 Salesforce Multi-Instance Service Disruption. Всегда полезно учиться на чужих ошибках, что бы своих было меньше. Хороший постмортем о том, что произошло у Salesforce 11 мая.
#напочитать #postmortem
#напочитать #postmortem
🗜 В последнее время стал часто почитывать постмортемы от разных компаний. Вот, например, от BunnyCDN, о падении DNS - The stack overflow of death. How we lost DNS and what we're doing to prevent this in the future.
#dns #postmortem #напочитать
#dns #postmortem #напочитать
💬 Incident Review Practices - сводная таблица, в которой 60 компаний поделились информацией о реакции на инциденты в своей работе. Табличку нашёл вот в этой статье - Incident Review and Postmortem Best Practices, к слову.
#sre #напочитать #postmortem
#sre #напочитать #postmortem
💀 Много разных postmortem'ов, собранных в одном месте и распределённых по категориям: https://github.com/danluu/post-mortems #sre #postmortem #напочитать
🎙 Running Post-Mortems - ещё один пример обработки инцидентов. Здесь автор предлагает использовать модератора, который будет координировать действия всех причастных к разбору полётов.
https://certomodo.substack.com/p/running-post-mortems
#sre #incident #postmortem
https://certomodo.substack.com/p/running-post-mortems
#sre #incident #postmortem
Incident post-mortem template.docx
287.7 KB
А вот тут простейший шаблон для оформления инцидента. Наткнулся на него вот в этой статье...
https://incident.io/blog/incident-post-mortem-template
#sre #postmortem #incident
https://incident.io/blog/incident-post-mortem-template
#sre #postmortem #incident
🧷 4 Instructive Postmortems on Data Downtime and Loss - четыре разных истории и четыре разных postmortem для инцидентов (потеря данных, проблемы с доступностью и всё вот это вот). На странице по ссылке краткий пересказ каждого из случаев и там же ссылки на полные отчёты от компаний.
P. S. Ссылка на описание инцидента в Gitlab у меня возвращает 404 почему-то, так что закинул PDF с этой страницей в комментарии.
#sre #postmortem #напочитать
P. S. Ссылка на описание инцидента в Gitlab у меня возвращает 404 почему-то, так что закинул PDF с этой страницей в комментарии.
#sre #postmortem #напочитать
⛓️💥 How GitLab Lost 300GB of Production Data and What We Can Learn. Хороший набор получился в этом инциденте - инженер, удаливший БД на проде, неработоспособные резервные копии и потеря 300Гб данных. Короткая страшилка перед сном...
https://bytesizeddesign.substack.com/p/how-gitlab-lost-300gb-of-production
#напочитать #recovery #postmortem
https://bytesizeddesign.substack.com/p/how-gitlab-lost-300gb-of-production
#напочитать #recovery #postmortem
Substack
How GitLab Lost 300GB of Production Data and What We Can Learn
The Hard Lesson on Backups, Disaster Recovery, and Human Error