Einfach Komplex – Der Software- und IT-Podcast

Site Reliability Engineering (SRE) mit Andy Grunwald vom Engineering Kiosk #81

08 Apr 2025

Audio

Description

SRE (Site Reliability Engineering) ist ein Ansatz, bei dem Softwareentwickler aktiv die Verantwortung für Systemstabilität und Skalierbarkeit übernehmen. Gast Andy Grunwald (Engineering Manager bei Cloudflare und Co-Host des "Engineering Kiosk") erklärt den Paradigmenwechsel: Statt wie klassische Ops-Teams primär reaktiv auf Ausfälle zu reagieren, gestalten SREs Systeme von Grund auf resilient.Zentrale Elemente sind Service Level Objectives (SLOs), die festlegen, wie stabil ein Service sein muss, und Error Budgets, die akzeptable Ausfallzeiten definieren. Bei Problemen folgt SRE einem strukturierten Incident-Management-Prozess.Der kulturelle Aspekt ist entscheidend: SRE verschiebt den Fokus von kurzfristiger Fehlerbehebung hin zu langfristiger Systemstabilität – etwa durch Automatisierung, Monitoring und gezielte Resilienztests (Chaos Engineering). Letztlich geht es darum, Betrieb und Entwicklung näher zusammenzubringen, ohne in klassische "Wir gegen die Ops"-Muster zu verfallen.------Korrekturen zur FolgeBeim Thema Incidents wird gesagt, dass die Metrik MTRR heißt. Sie heißt jedoch MTTR. Siehe https://de.wikipedia.org/wiki/Mean_Time_To_RecoverBei der Story mit dem Flugzeug und den Löchern im Flügel sprechen wir vom "Confirmation Bias". Tatsächlich handelt es sich um das "Survivorship Bias". Siehe https://en.wikipedia.org/wiki/Survivorship_bias------Links zur Folgehttps://andygrunwald.com/blog/my-all-time-high-articles/The Phoenix Project https://www.amazon.de/Phoenix-Project-DevOps-Helping-Business/dp/0988262592The Unicorn Project https://www.amazon.de/Unicorn-Project-Developers-Disruption-Thriving/dp/1942788762Google SRE books: https://sre.google/books/Exponential Backoff And Jitter https://aws.amazon.com/de/blogs/architecture/exponential-backoff-and-jitter/SRE fundamentals: SLIs, SLAs and SLOshttps://cloud.google.com/blog/products/devops-sre/sre-fundamentals-slis-slas-and-slos?hl=enPagerduty Incident Response https://response.pagerduty.com/ Engineering Kiosk Podcasts: ⁠https://engineeringkiosk.dev/Andy Grunwald LinkedIn https://www.linkedin.com/in/andy-grunwald-09aa265a/------Einfach Komplex ist ein Podcast von Heisenware. Alle Infos und Kontakte findest du im Linktree: ⁠⁠https://linktr.ee/heisenware⁠⁠------Andy, Burkhard & Gerrit sprechen heute über:(00:00:00) Intro Andy(00:03:00) Entstehung, Einordnung und Abgrenzung zu DevOps(00:27:30) SRE in der Praxis(00:42:30) Service Level Agreements und Verfügbarkeit(00:54:30) Kultur, Ausfälle und Übungen für den Notfall(01:08:30) SRE Summary(01:12:30) Weitere Ressourcen und Kontakt Andy

Transcription

This episode hasn't been transcribed yet

Help us prioritize this episode for transcription by upvoting it.

0 upvotes

🗳️ Sign in to Upvote

Popular episodes get transcribed faster

Other recent transcribed episodes

Transcribed and ready to explore now

13:00H | 21 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

10:00H | 21 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

12:00H | 20 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

2ª PARTE | 06 ENE 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

3ª PARTE | 22 ENE 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

3ª PARTE | 04 MAR 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

Comments

There are no comments yet.

Please log in to write the first comment.

Report any issue

Einfach Komplex – Der Software- und IT-Podcast

Site Reliability Engineering (SRE) mit Andy Grunwald vom Engineering Kiosk #81

This episode hasn't been transcribed yet

Other recent transcribed episodes

13:00H | 21 DIC 2025 | Fin de Semana

10:00H | 21 DIC 2025 | Fin de Semana

12:00H | 20 DIC 2025 | Fin de Semana

2ª PARTE | 06 ENE 2026 | EL PARTIDAZO DE COPE

3ª PARTE | 22 ENE 2026 | EL PARTIDAZO DE COPE

3ª PARTE | 04 MAR 2026 | EL PARTIDAZO DE COPE

Sign in to Audioscrape

Share this moment