Stellenangebot

Site Reliability Engineer

Die Stellenanzeige beschreibt eine Position als Site Reliability Engineer bei Man Group, bei der der Bewerber für die Zuverlässigkeit, Stabilität und Leistung von Technologieplattformen verantwortlich ist. Der Job bietet die Möglichkeit, an innovativen Projekten zu arbeiten und die Zukunft der Plattform zu verbessern, mit einem Fokus auf Machine Learning-Tools und -Technologien.

Die Rolle

Join our high-performing Site Reliability Engineering (SRE) team und spielen Sie eine wichtige Rolle bei der Gewährleistung der Zuverlässigkeit, Stabilität und Leistung unserer Technologieplattformen durch Machine Learning (ML)-Tools wie Prometheus, Grafana, New Relic und mehr.

Rollenverantwortung

Als SRE übernehmen Sie die Verantwortung für die Service-Zuverlässigkeit und liefern Lösungen, die einen echten Einfluss haben. Ihre anfängliche Konzentration umfasst:
  • Die Nutzung von KI, um die Incident-Diagnose und -Lösung zu beschleunigen
  • Die Verbesserung der Beobachtbarkeit, Kapazitätsplanung und Automatisierung
Ihre tägliche Arbeit dreht sich um die Infrastruktur-Stack, Betrieb und kontinuierliche Verbesserung.

Verantwortlichkeiten

- Stellen Sie die Zuverlässigkeit und Leistung kritischer Systeme über die globale Infrastruktur hinweg durch proaktives Monitoring und schnelle Incident-Reaktion sicher. - Entwerfen und implementieren Sie Beobachtbarkeitslösungen mit Tools wie Prometheus, Datadog, ELK und Loki, um Überwachungs- und Warnfunktionen bereitzustellen. - Arbeiten Sie mit mehreren Teams zusammen, um die Systemdesign, Deploy-Praktiken und Betriebsexzellenz zu verbessern. - Trennen Sie Probleme mit Selbstvertrauen, verwalten Sie On-Call-Rotationen, große CPU/GPU-Deployments und Hochleistungs-Verteilungssysteme. - Tragen Sie zur Kapazitätsplanung und Leistungsoptimierung bei, um sicherzustellen, dass Systeme die Geschäftsanforderungen erfüllen. - Verwalten Sie mehrere ELK-Cluster, die Hunderte von Terabyte an Log-Daten, Telemetrie- und APM-Daten hosten.

Schlüsselkompetenzen

Erforderlich:
  • Starkes Verständnis von SRE-Prinzipien, einschließlich SLIs, SLOs, Fehlerbudgets und Zuverlässigkeitstestpraxis
  • Starkes Erfahrung und tiefes Verständnis von Tools wie Prometheus, Grafana, ELK-Stack oder ähnlich
  • Kenntnisse in Automatisierungstools (Ansible, Terraform) und Skript-/Programmiersprachen (Python, Go, Perl/C)
  • Starkes Fehlersuche- und Debugging-Verständnis über verteilte Systeme hinweg, mit der Fähigkeit, komplexe Produktionsprobleme unter Druck zu diagnostizieren
  • Erfahrung mit Containerisierung, On-Call-Rotationen und Post-Incident-Reviews
  • Vertrautheit mit Kubernetes und Container-Orchestrierungslösungen
  • Proaktive Denkweise und Fähigkeit, die Verantwortung für Zuverlässigkeitsinitiativen zu übernehmen

Vorteile

- Moderne Büroflächen im OPD-Campus mit einfacher Anbindung an Verkehr und Einrichtungen - Ein hybrides Arbeitsmodell - Flexibles Vergütungspaket - 25 Tage Urlaubsgeld - Premium-Rentenprogramm - Firmenunterstütztes Programm - Mentale Gesundheit für langjährige Dienste und ehrenamtliche Tätigkeit - Zusätzliche Krankenzeit - Multifunktionale Karte - Möglichkeiten für professionelle Entwicklung, einschließlich interner Tech-Talks - Eine Kultur der Eigenverantwortung und des Engagements mit der Geschäftsgemeinschaft

Jobdetails

© 2025 House of Skills by skillaware. Alle Rechte vorbehalten.
Unsere Website nutzt Cookies, um dir die Navigation zu erleichtern und die Nutzung der Seite zu analysieren. Mehr Informationen findest du in unserer Datenschutzrichtlinie.