Stellenangebot
Site Reliability Engineer
Die Stellenanzeige beschreibt eine Position als Site Reliability Engineer bei Man Group, bei der der Bewerber für die Zuverlässigkeit, Stabilität und Leistung von Technologieplattformen verantwortlich ist. Der Job bietet die Möglichkeit, an innovativen Projekten zu arbeiten und die Zukunft der Plattform zu verbessern, mit einem Fokus auf Machine Learning-Tools und -Technologien.
Die Rolle
Join our high-performing Site Reliability Engineering (SRE) team und spielen Sie eine wichtige Rolle bei der Gewährleistung der Zuverlässigkeit, Stabilität und Leistung unserer Technologieplattformen durch Machine Learning (ML)-Tools wie Prometheus, Grafana, New Relic und mehr.Rollenverantwortung
Als SRE übernehmen Sie die Verantwortung für die Service-Zuverlässigkeit und liefern Lösungen, die einen echten Einfluss haben. Ihre anfängliche Konzentration umfasst:- Die Nutzung von KI, um die Incident-Diagnose und -Lösung zu beschleunigen
- Die Verbesserung der Beobachtbarkeit, Kapazitätsplanung und Automatisierung
Verantwortlichkeiten
- Stellen Sie die Zuverlässigkeit und Leistung kritischer Systeme über die globale Infrastruktur hinweg durch proaktives Monitoring und schnelle Incident-Reaktion sicher. - Entwerfen und implementieren Sie Beobachtbarkeitslösungen mit Tools wie Prometheus, Datadog, ELK und Loki, um Überwachungs- und Warnfunktionen bereitzustellen. - Arbeiten Sie mit mehreren Teams zusammen, um die Systemdesign, Deploy-Praktiken und Betriebsexzellenz zu verbessern. - Trennen Sie Probleme mit Selbstvertrauen, verwalten Sie On-Call-Rotationen, große CPU/GPU-Deployments und Hochleistungs-Verteilungssysteme. - Tragen Sie zur Kapazitätsplanung und Leistungsoptimierung bei, um sicherzustellen, dass Systeme die Geschäftsanforderungen erfüllen. - Verwalten Sie mehrere ELK-Cluster, die Hunderte von Terabyte an Log-Daten, Telemetrie- und APM-Daten hosten.Schlüsselkompetenzen
Erforderlich:- Starkes Verständnis von SRE-Prinzipien, einschließlich SLIs, SLOs, Fehlerbudgets und Zuverlässigkeitstestpraxis
- Starkes Erfahrung und tiefes Verständnis von Tools wie Prometheus, Grafana, ELK-Stack oder ähnlich
- Kenntnisse in Automatisierungstools (Ansible, Terraform) und Skript-/Programmiersprachen (Python, Go, Perl/C)
- Starkes Fehlersuche- und Debugging-Verständnis über verteilte Systeme hinweg, mit der Fähigkeit, komplexe Produktionsprobleme unter Druck zu diagnostizieren
- Erfahrung mit Containerisierung, On-Call-Rotationen und Post-Incident-Reviews
- Vertrautheit mit Kubernetes und Container-Orchestrierungslösungen
- Proaktive Denkweise und Fähigkeit, die Verantwortung für Zuverlässigkeitsinitiativen zu übernehmen
Vorteile
- Moderne Büroflächen im OPD-Campus mit einfacher Anbindung an Verkehr und Einrichtungen - Ein hybrides Arbeitsmodell - Flexibles Vergütungspaket - 25 Tage Urlaubsgeld - Premium-Rentenprogramm - Firmenunterstütztes Programm - Mentale Gesundheit für langjährige Dienste und ehrenamtliche Tätigkeit - Zusätzliche Krankenzeit - Multifunktionale Karte - Möglichkeiten für professionelle Entwicklung, einschließlich interner Tech-Talks - Eine Kultur der Eigenverantwortung und des Engagements mit der GeschäftsgemeinschaftJobdetails