Stellenangebot

Site Reliability Engineer

Der Job als Site Reliability Engineer bei Man Group umfasst die Gewährleistung der Zuverlässigkeit, Verfügbarkeit und Leistung der Technologie, die die Hedge-Fonds und andere Projekte des Unternehmens unterstützt. Der SRE wird sich auf die Entwicklung von Lösungen zur Beschleunigung von Incident-Diagnose und -Lösung, Observability, Kapazitätsplanung und Automatisierung konzentrieren.

Die Rolle

Join our high-performing Site Reliability Engineering (SRE) team und spiele eine wichtige Rolle bei der Gewährleistung der Zuverlässigkeit, Verfügbarkeit und Leistung der Technologie, die Man AHL's Hedge Funds, AHL und andere Edge-Impact-Projekte antreibt. Dies ist eine Chance, an cutting-edge-Technologie zu arbeiten und ein tieferes Verständnis von Technologie und Geschäft zu erlangen.

Role Responsibilities

* Stelle sicher, dass kritische Systeme über die globale Infrastruktur hinweg zuverlässig und leistungsfähig sind, durch proaktives Monitoring und schnelle Reaktion auf Vorfälle. * Entwickle und implementiere Observability-Lösungen mit Tools wie Prometheus, Datadog, ELK und Loki, um aussagekräftige Metriken bereitzustellen. * Erstelle und pflege SLAs, SLOs, SLI und Fehlerbudgets, um Zuverlässigkeitsverbesserungen zu leiten und Ingenieurprioritäten zu informieren. * Automatisiere operative Aufgaben und baue Selbstbedienungsfähigkeiten auf, um Routinearbeiten zu eliminieren und die Effizienz zu verbessern. * Nimm an On-Call-Rotationen teil, verwalte On-Call-Prozesse, führe Post-Mortem-Analysen durch, implementiere präventive Maßnahmen, um Ausfälle zu verhindern, und nimm an Reaktionsbemühungen teil. * Arbeite mit Entwicklungsteams zusammen, um Systemdesign, Deploy-Praktiken und operative Exzellenz zu verbessern. * Konfiguriere und rolle Cloud-Kosten aus, verwaltet Bare-Metal-Speicher, große CPU/GPU-Deployments und Hochleistungs-Verteilungssysteme. * Trage zu Kapazitätsplanung und Leistungsbudgetierung bei, um sicherzustellen, dass Systeme Geschäftsanforderungen erfüllen. * Verwalte mehrere ELK-Cluster, die Hunderte von Terabyte an Log-Daten, Telemetrie- und APM-Daten enthalten.

Schlüsselkompetenzen

Erforderlich

* Gutes Verständnis von SRE-Prinzipien, einschließlich SLIs, SLOs, Fehlerbudgets und Zuverlässigkeitstests. * 5+ Jahre Erfahrung und nachweisbare Erfolge bei der Leitung mehrerer IT-Projekte. * Kenntnisse von Automatisierungstools (Ansible, Terraform) und Skript-/Programmiersprachen (Python, Go, Powershell). * Starke Fähigkeiten zur Fehlersuche und -behebung in verteilten Systemen, mit der Fähigkeit, komplexe Produktionsprobleme unter Druck zu diagnostizieren. * Erfahrung mit Visualisierung, Überwachung, On-Call-Rotationen und Post-Incident-Reviews. * Vertrautheit mit Kubernetes und Container-Orchestrierung.

Vorteilhaft

* Erfahrung mit CI/CD-Pipelines und Quellcode-Workflows (Git, Jenkins, TeamCity/Azure). * Administration von Linux- und Windows-Systemen und Erfahrung mit Cloud-Technologien (AWS/Azure). * Verständnis von Netzwerk-Konzepten, Lastverteilung und verteilten Architekturen. * Kenntnisse von A/UX und/oder Infrastruktur-Performance-Tuning, HPE-Server. * Vertrautheit mit FinOps-Prinzipien, Wunsch, die wahren Kosten unserer Entscheidungen zu verstehen. * Nachweisbare Fähigkeiten in schriftlicher und mündlicher Kommunikation und Zusammenarbeit.

Benefits

* Moderne Büroflächen auf dem Old Broadwick-Campus mit einfacher Anbindung an Verkehrsmittel und Einrichtungen * Hybrid-Arbeitsmodell * 28 Tage Urlaubspaket * 21 Tage Urlaubsgeld * Premium-Unfall-Todesfall-Versicherung * Mitarbeiter-Unterstützungsprogramm * Erste-Hilfe-Kräfte für psychische Gesundheit * Empfehlungsprämie * Zusätzliche Krankentage für langjährige Dienste und

Jobdetails

© 2025 House of Skills by skillaware. Alle Rechte vorbehalten.
Unsere Website nutzt Cookies, um dir die Navigation zu erleichtern und die Nutzung der Seite zu analysieren. Mehr Informationen findest du in unserer Datenschutzrichtlinie.