Stellenangebot

Site Reliability Engineer

Als Site Reliability Engineer bist du für die Zuverlässigkeit, Stabilität und Leistung der Infrastruktur verantwortlich und spielst eine wichtige Rolle bei der Gestaltung der Zukunft unserer Plattform. Du wirst an innovativen Projekten arbeiten und hast die Möglichkeit, von erfahrenen Führungskräften zu lernen.

Stellenbeschreibung: Site Reliability Engineer

Aufgaben

  • Sicherstellung der Zuverlässigkeit und Leistung von kritischen Systemen auf globaler Infrastruktur durch proaktive Überwachung und schnelle Incident-Reaktion.
  • Entwurf und Implementierung von Observability-Lösungen mit Tools wie Prometheus, Datadog, ELK und Loki für sinnvolle und schnelle Incident-Reaktion.
  • Entwicklung und Wartung von SLI/SLOs zur Steuerung von Zuverlässigkeitsverbesserungen und zur Information von Ingenieur-Prioritäten.
  • Automatisierung von betrieblichen Aufgaben und Aufbau von Self-Service-Fähigkeiten zur Beseitigung von Toil und zur Verbesserung der Effizienz.
  • Teilnahme an Post-Mortem-Analysen, blameless Post-Mortems und Implementierung von vorbeugenden Maßnahmen zur Vermeidung von wiederholten Problemen.
  • Zusammenarbeit mit Entwicklungsteams zur Verbesserung von Systemdesign, Deployment-Praktiken und betrieblicher Exzellenz.
  • Konfiguration und Rollout von groß angelegten Infrastrukturen und hochleistungsfähigen verteilten Systemen.
  • Beitrag zur Kapazitätsplanung und Leistungsbudgetierung, um sicherzustellen, dass Systeme den Geschäftsanforderungen entsprechen.
  • Verwaltung von mehreren ELK-Clustern, die Hunderte von Terabyte Log-, Telemetry- und APM-Daten hosten.

Anforderungen

  • Starkes Verständnis von SRE-Prinzipien, einschließlich SLIs, SLOs, Fehlerbudgets und Zuverlässigkeitstestpraktiken.
  • Starker Hintergrund in Softwareentwicklung und -betrieb, mit Kenntnissen in Python, Java oder ähnlichen Programmiersprachen (Java/Scala, Terraform und Skript-/Programmiersprachen (Python, Php, Perl/Csh)).
  • Starke Troubleshooting- und Debugging-Fähigkeiten bei verteilten Systemen, mit der Fähigkeit, komplexe Produktionsprobleme unter Druck zu diagnostizieren.
  • Expertise in Incident-Management, On-Call-Rotationen und Post-Incident-Reviews.
  • Vertrautheit mit Kubernetes und Container-Orchestrierung.
  • Proaktive Denkweise und Fähigkeit, Verantwortung für Zuverlässigkeitsinitiativen zu übernehmen.
  • Erfahrung mit SRE/DevOps-Tools und -Praktiken (z.B. PagerDuty, OpsGenie, ELK, Log oder ähnlich).
  • Verwaltung von Linux- und Windows-Systemen und Erfahrung mit Cloud-Technologien (AWS/Azure).
  • Verständnis von Netzwerkkonzepten, Lastbalancierung und verteilten Architekturen.
  • Kenntnisse von ALM/CMMI-Prinzipien; Wunsch, die tatsächlichen Kosten von Entscheidungen zu verstehen.
  • Nachgewiesene Erfolgsbilanz in Kommunikations- und Kollaborationsfähigkeiten.

Wir bieten

  • Moderne Bürofläche im OFCOM-Campus mit einfachem Zugang zu Verkehr und Einrichtungen.
  • Hybrides Arbeitsmodell.
  • Wettbewerbsfähiges Gehalt und Leistungspaket.
  • 25 Tage Urlaubsgeld.
  • Prämien-Krankenversicherung.
  • Unternehmensangepasstes Pensionsprogramm.
  • Geistesbonus.
  • Zusätzliche freie Tage für lange Dienstzeit und Freiwilligenarbeit.
  • Angestelltenkarte.
  • Möglichkeiten zur beruflichen Weiterentwicklung, einschließlich interner Tech-Talks.
  • Vertrauen, Affinität und Engagement mit der Man Group-Community.

Jobdetails

© 2025 House of Skills by skillaware. Alle Rechte vorbehalten.
Unsere Website nutzt Cookies, um dir die Navigation zu erleichtern und die Nutzung der Seite zu analysieren. Mehr Informationen findest du in unserer Datenschutzrichtlinie.