Eine Einführung zu Site Reliability Engineering bei Google

Site Reliability Engineers sind Googles Experten für den Betrieb der internen technischen Infrastruktur und Produkte. Sie müssen mit der enormen Größe, dem schnellen Wachstum und der enormen Komplexität der Systemlandschaft von Google Schritt halten. Da traditionelle Methoden nicht funktionieren würden, behandelt SRE den IT-Betrieb wie ein Software-Engineering-Problem. Der Vortrag gibt einen Überblick über den SRE-Ansatz und wie er die Systeme von Google schnell, zuverlässig und effizient macht.

Vorkenntnisse

* Einige grundlegende Kenntnisse in DevOps oder der Systemadministration könnten hilfreich sein, um die Vorteile des Modells einordnen zu können, sind aber nicht unbedingt erforderlich, um die Präsentation zu verstehen.
* Grundlegendes Verständnis der betrieblichen Herausforderungen beim Betrieb moderner Softwareinfrastrukturen
* Bonuspunkte, wenn man schon von SLOs, Release-Engineering und Bereitschaftsdienst gehört hat

Lernziele

* Wie man Softwaresysteme zuverlässig betreibt, ohne die Entwicklungsgeschwindigkeit zu beeinträchtigen
* Wie kann man Quellen von organisatorischen Konflikten zwischen Dev und Ops beseitigen?
* Wie können Kompromisse zwischen Zuverlässigkeit, Entwicklungsaufwand und Betriebskosten gemacht werden?

 

Agenda

ab 8.30 Uhr Registrierung und Begrüßungskaffee

9.30 Uhr Beginn

Intro

Machine Learning

  • Was ist Machine Learning?
  • Der typische ML Workflow
  • Was sind neuronale Netze?
  • Jupyter Lab mit Python
  • Eine Einführung in TensorFlow
  • Keras als High-Level API für TensorFlow

Praxisteil: Deep Learning Modelle mit Keras

  • Datengeneratoren
  • Datasets explorativ analysieren
  • Hold-Out vs. Cross Validation

11.00 - 11.15 Uhr: Kaffeepause

Praxisteil: Deep Learning Modelle mit Keras

  • Feed-Forward Netzarchitektur
  • Convolutional Neural Networks als Deep Learning Ansatz
  • Evaluation und Visualisierung des Modells

12.30 - 13.30 Uhr: Mittagspause

Pipelines mit Luigi

  • Anforderungen an produktive Modelle
  • Übersicht über Luigi und dessen Module
  • Bau eines Beispiel-Workflows

Praxisteil: Den Keras-Workflow mit Luigi implementieren

  • Anforderungen an produktive Modelle
  • Übersicht über Luigi und dessen Module
  • Bau eines Beispiel-Workflows

15.30 - 15.45 Uhr: Kaffeepause

Praxisteil: TensorFlow-Serving

  • Übersicht über TensorFlow-Serving
  • Ladestrategien konfigurieren
  • Deployment des Modells

ca. 17.00 Uhr: Ende

 

Referent

 

Christof Leng Christof Leng ist Senior Site Reliability Engineer bei Google, wo er ein SRE-Team für die Entwickler-Tools und -Infrastruktur von Google leitet. Er promovierte in Informatik an der TU Darmstadt, wo er verteilte Systeme erforschte. Christof war Postdoc am International Computer Science Institute und an der University of California Berkeley. Er war Vizepräsident der Deutschen Gesellschaft für Informatik und Vorsitzender der Deutschen Piratenpartei.

Platin-Sponsor

Gold-Sponsoren

Silber-Sponsoren



CLC-Newsletter

Sie möchten über die Continuous Lifecycle
auf dem Laufenden gehalten werden?

 

Anmelden