Stellenangebot

Site Reliability Engineer

Die Stellenanzeige ist für einen Site Reliability Engineer (SRE) bei Man Group, einem globalen Anlageverwaltungsunternehmen, der für die Zuverlässigkeit, Verfügbarkeit und Leistung der Technologie verantwortlich ist. Der SRE wird an der Entwicklung von Lösungen zur Beschleunigung von Incident-Diagnose und -Lösung, Verbesserung der Beobachtbarkeit und Automatisierung arbeiten.

Ausland

Man Investments AG

100%

Die Rolle

Join our high-performing Site Reliability Engineering (SRE) team und spielen Sie eine wichtige Rolle bei der Gewährleistung der Zuverlässigkeit, Verfügbarkeit und Leistung der Technologie, die Man AHL's Fonds und unsere innovative Investitionsplattform antreibt. Dies ist eine Chance, an innovativen Projekten zu arbeiten. Als SRE werden Sie die Verantwortung für die Zuverlässigkeit von Diensten und relative Lösungen übernehmen, die einen echten Einfluss haben. Ihr anfänglicher Fokus wird die Nutzung von KI zur Beschleunigung der Incident-Diagnose und -Lösung, die Verbesserung der Beobachtbarkeit, die Kapazitätsplanung und die Automatisierung umfassen. Sobald Sie sich in den Arbeitsablauf eingearbeitet haben, werden Sie an der gesamten Infrastruktur arbeiten, die alle Ebenen umfasst und kontinuierliche Verbesserungen vorantreibt.

Rollenverantwortlichkeiten

- Stellen Sie die Zuverlässigkeit und Leistung kritischer Systeme über die globale Infrastruktur hinweg durch proaktives Monitoring und schnelle Incident-Reaktion sicher. - Entwerfen und implementieren Sie Beobachtbarkeitslösungen mit Tools wie Prometheus, Datadog, EFK, Loki und Kube, um eine umfassende Sichtbarkeit zu bieten. - Entwickeln und pflegen Sie SLAs, SLOs und Fehlerbudgets, um Zuverlässigkeitsverbesserungen zu leiten und ingenieurtechnische Entscheidungen zu treffen. - Automatisieren Sie operative Aufgaben und bauen Sie Selbstbedienungsfähigkeiten auf, um Routinearbeiten zu eliminieren und die Effizienz zu verbessern. - Entwickeln und pflegen Sie Prozesse und Metriken. - Nehmen Sie an Incident-Response-Bemühungen, schuldlosen Post-Mortems und implementieren Sie präventive Maßnahmen teil, um Wiederholungen zu verhindern. - Arbeiten Sie mit Entwicklungsteams zusammen, um Systemdesign, Deployment-Praktiken und operative Exzellenz zu verbessern. - Konfigurieren und pflegen Sie große Rechenressourcen in verteilten Systemen. - Tragen Sie zur Kapazitätsplanung und Leistungsprognose bei, um sicherzustellen, dass Systeme die Geschäftsanforderungen erfüllen. - Verwalten Sie mehrere ELK-Cluster, die Hunderte von Terabyte an Log-Daten, Telemetrie- und APM-Daten hosten.

Schlüsselkompetenzen

Erforderlich: - Gutes Verständnis von SRE-Prinzipien, einschließlich SLAs, SLOs, Fehlerbudgets und Zuverlässigkeitstests. - Mindestens 3 Jahre Erfahrung mit verteilten Systemen. Starke Kenntnisse von Kubernetes, Docker, Linux. - Kenntnisse von Automatisierungstools (Ansible, Terraform) und Skript-/Programmiersprachen (Python, Go, PowerShell). - Starke Fähigkeiten zur Fehlersuche und -behebung in verteilten Systemen, mit der Fähigkeit, komplexe Produktionsprobleme unter Druck zu diagnostizieren. - Erfahrung mit Beobachtbarkeit, On-Call-Rotationen und Post-Incident-Reviews. - Vertrautheit mit Kubernetes und Container-Orchestrierung. Vorteilhaft: - Erfahrung mit CICD-Pipelines und Quellcode-Workflows (Git, Jenkins, TeamCity, GitLab). - Administration von Linux- und Windows-Systemen und Erfahrung mit Cloud-Technologien (AWS/Azure). - Verständnis von Netzwerk-Konzepten, Lastverteilung und verteilten Architekturen. - Kenntnisse von AIOps/ML Ops (Google Cloud, Amazon Cloud, HDP-Ökosystem). - Vertrautheit mit FinOps-Prinzipien, Wunsch, die tatsächlichen Kosten unserer Entscheidungen zu verstehen. - Exzellente mündliche und schriftliche Kommunikations- und Kooperationsfähigkeiten.