Was haben die Methoden der Feuerwehr zur Bekämpfung von Großschadensereignissen mit dem Incident Management von IT-Systemen gemeinsam? Diese Frage klären wir in der folgenden Episode. Wolfgang, als Mitglied der freiwilligen Feuerwehr, gibt einen Einblick in das Prozedere, wenn die Feuerwehr ausrückt. Andy vergleicht dies mit dem Incident Management von Cloud-Systemen. Wir klären wie man den Schaden eines Incidents misst, was dies mit dem Vertrauen von Kunden zu tun hat, wie ordentliche Prävention aussehen kann und warum es dafür wenig Ruhm gibt, was man unter War- und Peacetime versteht, wie ein moderner “Schreiberling” aussieht, wie dreist Presseleute sein können und was eine kleine Konferenz in Kalifornien damit zu tun hat.Bonus: Was Gartenschläuche und Stahl-Hochöfen damit zu tun haben und wieso Kaffee holen doch eine Strategie sein kann.Feedback an [email protected] oder via Twitter an https://twitter.com/EngKioskUnsere aktuellen Werbepartner findest du auf https://engineeringkiosk.dev/partners LinksDatenverlust bei 1.500 Snapshots von Hetzner Cloud: https://www.golem.de/news/trotz-redundanz-datenverlust-bei-1-500-snapshots-von-hetzner-cloud-2204-164628.htmlCeph Storage: https://ceph.io/Inside the Longest Atlassian Outage of All Time: https://newsletter.pragmaticengineer.com/p/scoop-atlassianAtlassian stoppt den Verkauf von On-Premise Lizenzen: https://www.atlassian.com/migration/assess/journey-to-cloudauditd: https://linux.die.net/man/8/auditdrsyslog: https://www.rsyslog.com/Incident.io: https://incident.io/5-Why-Methode: https://de.wikipedia.org/wiki/5-Why-MethodePostmortem “Roblox Return to Service 10/28-10/31 2021”: https://blog.roblox.com/2022/01/roblox-return-to-service-10-28-10-31-2021/Postmortem “The Discovery of Apache ZooKeeper’s Poison Packet”: https://www.pagerduty.com/blog/the-discovery-of-apache-zookeepers-poison-packet/Postmortem “etcd: v3.5 data inconsistency”: https://github.com/etcd-io/etcd/blob/main/Documentation/postmortems/v3.5-data-inconsistency.mdPostmortem: “Gocardless: Incident review: API and Dashboard outage on 10 October 2017”: https://gocardless.com/blog/incident-review-api-and-dashboard-outage-on-10th-october/Postmortem: “Monzo,Outage, 29. July 2019”: https://monzo.com/blog/2019/09/08/why-monzo-wasnt-working-on-july-29thSammlung von verschiedenen Postmortems: https://github.com/danluu/post-mortemsOpsGenie: https://www.atlassian.com/de/software/opsgeniePagerDuty: https://www.pagerduty.com/Buch “Incident Management for Operations”: https://www.amazon.de/Incident-Management-Operations-Rob-Schnepp/dp/1491917628Sprungmarken(00:00:00) Intro(00:01:21) Wie viel Feuerwehr-Leute gibt es in Deutschland?(00:02:58) Was ist Incident Management im DevOps/Infrastruktur-Bereich(00:07:33) Firmen-Interne Incidents können ebenfalls richtig teuer werden(00:09:14) Wie wichtig ist Prävention und Monitoring?(00:10:26) Wie agiert ein Unternehmen bei einem IT-Incident? Chaotische Hilfe(00:12:33) Inwieweit kann ein IT-Incident mit einem Großschadensereignis verglichen werden?(00:14:14) Was ist ein Großschadensereignis?(00:15:57) Wie bekommen denn alle mit, dass ein Incident gerade eintritt? Und welche Strukturen sind notwendig?(00:17:43) Wer übernimmt die Rolle des (Incident) Commanders?(00:19:21) Was beinhaltet denn die Übernahme eines Incidents?(00:21:23) Vergleich von der Übernahme eines Incidents zwischen der Feuerwehr und einem IT-System(00:23:43) Strategie der Feuerwehr bei Incidents und Hierarchien(00:26:14) Ist der Einsatzleiter ein aktiver Teil des Incidents? Und welche Rollen gibt es noch?(00:30:09) Kommunikationsstrukturen in IT-Incidents(00:33:01) Der aktuelle Atlassian-Incident(00:34:44) Die Rollen von Logistik und Administration in der Feuerwehr und in der IT(00:37:16) (Essens)-Logistik bei Remote-Incidents(00:40:19) War-Rooms: Anti-Pattern oder Must-Have + Pro-Aktive Kommunikation(00:43:26) War- und Peace-Time(00:44:19) Incident Commander, Rollen und Rollen-Rotation im IT-Bereich(00:45:53) Die Rolle des Protokollführers / Schreiberlings(00:50:46) Post Mortems und Nachbesprechungen: Warum machen die Sinn?(00:54:21) Vorbereitungen, Prävention und Training in der Friedenszeit(00:57:51) Lernen aus Incidents und die Post Mortem-Struktur(01:00:09) Employer Branding mit Post Mortems(01:01:45) Happy-Path in Post Mortems(01:02:35) Nachbesprechung bei der Feuerwehr und Post Mortem Conferences(01:06:45) Web-Ops / Fire-Ops-Conference(01:09:40) OutroHostsWolfgang Gassler (https://twitter.com/schafele)Andy Grunwald (https://twitter.com/andygrunwald)Engineering Kiosk Podcast: Anfragen an [email protected] oder via Twitter an https://twitter.com/EngKiosk
No persons identified in this episode.
This episode hasn't been transcribed yet
Help us prioritize this episode for transcription by upvoting it.
Popular episodes get transcribed faster
Other recent transcribed episodes
Transcribed and ready to explore now
3ª PARTE | 17 DIC 2025 | EL PARTIDAZO DE COPE
01 Jan 1970
El Partidazo de COPE
13:00H | 21 DIC 2025 | Fin de Semana
01 Jan 1970
Fin de Semana
12:00H | 21 DIC 2025 | Fin de Semana
01 Jan 1970
Fin de Semana
10:00H | 21 DIC 2025 | Fin de Semana
01 Jan 1970
Fin de Semana
13:00H | 20 DIC 2025 | Fin de Semana
01 Jan 1970
Fin de Semana
12:00H | 20 DIC 2025 | Fin de Semana
01 Jan 1970
Fin de Semana