Einführung in Site Reliability Engineering

Site Reliability Engineering (SRE) hat sich in den vergangenen Jahren als moderner Ansatz für den Betrieb verteilter Systeme etabliert. Im Zuge des Workshops werden die Teilnehmer:innen in relevante Konzepte von SRE wie z.B. Service Level Objectives (SLOs), Postmortems und Root-Cause-Analysen eingeführt.

Als Roter Faden wird uns dabei die "SRE Pyramid" aus dem Google-SRE-Buch dienen, deren einzelne Themen in Blöcken bearbeitet werden.

Die erlernten Konzepte und Ideen werden wir durch Beispiele, Gruppenarbeiten und Diskussionen vertiefen. Am Ende sollen die Teilnehmer:innen ein pragmatisches und Tool-agnostisches Verständnis von SRE mitnehmen, das sie auch in ihrem eigenen Alltag einsetzen können.

Vorkenntnisse

  • Grundkenntnisse im Betrieb von Verteilten Systemen
  • Grundkenntnisse Verteilter Systeme
  • Grundkenntnisse von Kubernetes sind hilfreich für das Nachvollziehen der Beispiele

Lernziele

  • Motivieren der Teilnehmer:innen, sich mit dem Thema SRE auseinanderzusetzen
  • Vermitteln relevanter Bausteine für dein eigenen Einsatz
  • Vermitteln von Best Practices und Lessons Learned aus unserer eigenen Erfahrung
  • Ausblick wo es mit dem Thema hingehen kann

Agenda

  • ab 09:00 Uhr: Registrierung und Begrüßungskaffee
  • 10:00 - 10:30 Uhr: Beginn, Vorstellung
  • 10:30 - 11:30 Uhr: Grundbegriffe und Konzepte von SRE
  • 11:30 - 12: 30 Uhr: Monitoring / Observability
  • 12:30 - 13:30 Uhr: Mittagspause
  • 13:30 - 15:00 Uhr: Incident Response, Post Mortems und Root Cause Analysen
  • 15:00 - 15:15 Uhr: Kaffeepause
  • 15:15 - 16:15 Uhr: Testing und Release Prozesse
  • 16:15 - 16:30 Uhr: Kaffeepause
  • 16: 30 - 17:00 Uhr: Ausblick auf weitere relevante Themen
  • ca. 17:00 Uhr: Ende

 

Technische Anforderungen

  • Eigener Laptop
  • Kostenloser Miro-Account (wir werden Miro als virtuelles Board während des Workshops verwenden)
  • Optional: Lokale kubectl-Installation für das Nachvollziehen von Beispielen

Speaker

 

Bastian Spanneberg
Bastian Spanneberg arbeitet seit einigen Jahren im Bereich Site Reliability Engineering, unter anderem bei Unternehmen wie Instana und Clickhouse. Aktuell ist er SRE Lead bei Celonis.

Marcel Birkner
Marcel Birkner arbeitet seit einigen Jahren im Bereich Site Reliability Engineering, unter anderem bei Unternehmen wie Instana und Clickhouse. Aktuell ist er Founding Engineer in einem Stealth Startup.

CLC-Newsletter

Sie möchten über die Continuous Lifecycle und die ContainerConf auf dem Laufenden gehalten werden?

 

Anmelden