Записки админа
12.8K subscribers
653 photos
29 videos
227 files
2.48K links
Пишу о Linux и администрировании серверов.

Связаться с автором: @servers

Заметки в браузере: https://sysadmin.pm/

Буст канала: https://yangx.top/sysadminnotes?boost
加入频道
😖 Salesforce Multi-Instance Service Disruption. Всегда полезно учиться на чужих ошибках, что бы своих было меньше. Хороший постмортем о том, что произошло у Salesforce 11 мая.

#напочитать #postmortem
🗜 В последнее время стал часто почитывать постмортемы от разных компаний. Вот, например, от BunnyCDN, о падении DNS - The stack overflow of death. How we lost DNS and what we're doing to prevent this in the future.

#dns #postmortem #напочитать
💬 Incident Review Practices - сводная таблица, в которой 60 компаний поделились информацией о реакции на инциденты в своей работе. Табличку нашёл вот в этой статье - Incident Review and Postmortem Best Practices, к слову.

#sre #напочитать #postmortem
💀 Много разных postmortem'ов, собранных в одном месте и распределённых по категориям: https://github.com/danluu/post-mortems #sre #postmortem #напочитать
🎙 Running Post-Mortems - ещё один пример обработки инцидентов. Здесь автор предлагает использовать модератора, который будет координировать действия всех причастных к разбору полётов.

https://certomodo.substack.com/p/running-post-mortems

#sre #incident #postmortem
Incident post-mortem template.docx
287.7 KB
А вот тут простейший шаблон для оформления инцидента. Наткнулся на него вот в этой статье...

https://incident.io/blog/incident-post-mortem-template

#sre #postmortem #incident
🧷 4 Instructive Postmortems on Data Downtime and Loss - четыре разных истории и четыре разных postmortem для инцидентов (потеря данных, проблемы с доступностью и всё вот это вот). На странице по ссылке краткий пересказ каждого из случаев и там же ссылки на полные отчёты от компаний.

P. S. Ссылка на описание инцидента в Gitlab у меня возвращает 404 почему-то, так что закинул PDF с этой страницей в комментарии.

#sre #postmortem #напочитать
⛓️‍💥 How GitLab Lost 300GB of Production Data and What We Can Learn. Хороший набор получился в этом инциденте - инженер, удаливший БД на проде, неработоспособные резервные копии и потеря 300Гб данных. Короткая страшилка перед сном...

https://bytesizeddesign.substack.com/p/how-gitlab-lost-300gb-of-production

#напочитать #recovery #postmortem