Stellenangebot
Site Reliability Engineer
Der Job als Site Reliability Engineer bei Man Group bietet die Möglichkeit, die Zuverlässigkeit, Stabilität und Leistung von Technologieplattformen zu gewährleisten und an innovativen Projekten mitzuarbeiten. Der SRE wird für die Entwicklung von Lösungen verantwortlich sein, die den Betrieb verbessern und die Firma unterstützen, ihre Ziele zu erreichen.
Die Rolle
Join our high-performing Site Reliability Engineering (SRE) team und spielen Sie eine wichtige Rolle bei der Gewährleistung der Zuverlässigkeit, Stabilität und Leistung unserer Technologieplattformen. Dies ist eine Chance, an innovativen Projekten zu arbeiten und die Zukunft unserer Plattform mitzugestalten.Rollenverantwortung
* Stellen Sie die Zuverlässigkeit und Leistung kritischer Systeme über die globale Infrastruktur hinweg sicher, indem Sie proaktives Monitoring und schnelle Reaktion auf Vorfälle durchführen. * Entwerfen und implementieren Sie Observability-Lösungen, um Einblicke in die Systemleistung zu erhalten und Verbesserungen zu identifizieren. * Automatisieren Sie operationale Aufgaben und bauen Sie Selbstbedienungsfunktionen, um Routinearbeiten zu eliminieren und die Effizienz zu verbessern. * Entwickeln und pflegen Sie SLIs, SLOs und Fehlerbudgets, um Zuverlässigkeitsverbesserungen zu leiten und Ingenieur-Entscheidungen zu informieren. * Nehmen Sie an Reaktionsbemühungen auf Vorfälle teil, führen Sie schuldlose Post-Mortems durch und implementieren Sie präventive Maßnahmen, um die Zuverlässigkeit zu verbessern. * Arbeiten Sie mit Entwicklungsteams zusammen, um Systemdesign, Entwicklungspraktiken und operative Exzellenz zu verbessern. * Konfigurieren und rollen Sie große Infrastruktur-Upgrades und Hochleistungs-Verteilungssysteme aus. * Tragen Sie zur Kapazitätsplanung und Leistungsoptimierung bei, um sicherzustellen, dass Systeme die Geschäftsanforderungen erfüllen. * Verwalten Sie mehrere ELK-Cluster, die Hunderte von Terabyte an Log-Daten, Telemetrie- und APM-Daten hosten.Schlüsselkompetenzen
Erforderlich
* Gutes Verständnis von SRE-Prinzipien, einschließlich SLIs, SLOs, Fehlerbudgets und Zuverlässigkeitstests. * Erfahrung und tiefes Verständnis von Tools wie Prometheus, Datadog, ELK, Loki und Grafana. * Kenntnisse in Automatisierungstools (Ansible, Terraform) und Skript-/Programmiersprachen (Python, Go, Perl/C++). * Starke Fähigkeiten zur Fehlersuche und -behebung in verteilten Systemen, mit der Fähigkeit, komplexe Produktionsprobleme unter Druck zu diagnostizieren. * Erfahrung mit Visualisierung, Berichterstellung, On-Call-Rotationen und Post-Incident-Reviews. * Vertrautheit mit Kubernetes und Container-Orchestrierung.Vorteilhaft
* Erfahrung mit C/IDC-Bildern und Speicherlösungen (z. B. Zenko, Teams, OpenQA). * Administration von Linux- und Windows-Systemen und Erfahrung mit Cloud-Technologien (AWS/Azure). * Verständnis von Netzwerk-Konzepten, Lastverteilung und verteilten Architekturen. * Kenntnisse von A/UX (Unix SVR4, Linux/Unix), Container (z. B. Docker), HOP (Spark). * Vertrautheit mit FinOps-Prinzipien, um die tatsächlichen Kosten unserer Entscheidungen zu verstehen und zu kommunizieren und zu kooperieren.Vorteile
* Moderne Büroausstattung im OPDX-Campus mit einfacher Anbindung an Verkehrsmittel und Einrichtungen. * Hybrid-Arbeitsmodell * 25 Tage Urlaubspaket * Premium-Krankenversicherung * Firmen-Zulagenprogramm * Zusätzliche Tage frei für langjährige Dienste und ehrenamtliche Tätigkeit * Mentale Gesundheitsprämie * Jahresurlaub * Möglichkeiten zur professionellen Entwicklung, einschließlich interner Tech-Talks * Flexible Arbeitsumgebung und Engagement mit der Man Group Employee Community.Jobdetails