Stellenangebot
Site Reliability Engineer
Der Job als Site Reliability Engineer bei Man Group umfasst die Gewährleistung der Zuverlässigkeit, Verfügbarkeit und Leistung der Technologie, die die Hedge-Fonds und andere Projekte des Unternehmens unterstützt. Der SRE wird sich auf die Entwicklung von Lösungen zur Beschleunigung von Incident-Diagnose und -Lösung, Observability, Kapazitätsplanung und Automatisierung konzentrieren.
Die Rolle
Join our high-performing Site Reliability Engineering (SRE) team und spiele eine wichtige Rolle bei der Gewährleistung der Zuverlässigkeit, Verfügbarkeit und Leistung der Technologie, die Man AHL's Hedge Funds, AHL und andere Edge-Impact-Projekte antreibt. Dies ist eine Chance, an cutting-edge-Technologie zu arbeiten und ein tieferes Verständnis von Technologie und Geschäft zu erlangen.Role Responsibilities
* Stelle sicher, dass kritische Systeme über die globale Infrastruktur hinweg zuverlässig und leistungsfähig sind, durch proaktives Monitoring und schnelle Reaktion auf Vorfälle. * Entwickle und implementiere Observability-Lösungen mit Tools wie Prometheus, Datadog, ELK und Loki, um aussagekräftige Metriken bereitzustellen. * Erstelle und pflege SLAs, SLOs, SLI und Fehlerbudgets, um Zuverlässigkeitsverbesserungen zu leiten und Ingenieurprioritäten zu informieren. * Automatisiere operative Aufgaben und baue Selbstbedienungsfähigkeiten auf, um Routinearbeiten zu eliminieren und die Effizienz zu verbessern. * Nimm an On-Call-Rotationen teil, verwalte On-Call-Prozesse, führe Post-Mortem-Analysen durch, implementiere präventive Maßnahmen, um Ausfälle zu verhindern, und nimm an Reaktionsbemühungen teil. * Arbeite mit Entwicklungsteams zusammen, um Systemdesign, Deploy-Praktiken und operative Exzellenz zu verbessern. * Konfiguriere und rolle Cloud-Kosten aus, verwaltet Bare-Metal-Speicher, große CPU/GPU-Deployments und Hochleistungs-Verteilungssysteme. * Trage zu Kapazitätsplanung und Leistungsbudgetierung bei, um sicherzustellen, dass Systeme Geschäftsanforderungen erfüllen. * Verwalte mehrere ELK-Cluster, die Hunderte von Terabyte an Log-Daten, Telemetrie- und APM-Daten enthalten.Schlüsselkompetenzen
Erforderlich
* Gutes Verständnis von SRE-Prinzipien, einschließlich SLIs, SLOs, Fehlerbudgets und Zuverlässigkeitstests. * 5+ Jahre Erfahrung und nachweisbare Erfolge bei der Leitung mehrerer IT-Projekte. * Kenntnisse von Automatisierungstools (Ansible, Terraform) und Skript-/Programmiersprachen (Python, Go, Powershell). * Starke Fähigkeiten zur Fehlersuche und -behebung in verteilten Systemen, mit der Fähigkeit, komplexe Produktionsprobleme unter Druck zu diagnostizieren. * Erfahrung mit Visualisierung, Überwachung, On-Call-Rotationen und Post-Incident-Reviews. * Vertrautheit mit Kubernetes und Container-Orchestrierung.Vorteilhaft
* Erfahrung mit CI/CD-Pipelines und Quellcode-Workflows (Git, Jenkins, TeamCity/Azure). * Administration von Linux- und Windows-Systemen und Erfahrung mit Cloud-Technologien (AWS/Azure). * Verständnis von Netzwerk-Konzepten, Lastverteilung und verteilten Architekturen. * Kenntnisse von A/UX und/oder Infrastruktur-Performance-Tuning, HPE-Server. * Vertrautheit mit FinOps-Prinzipien, Wunsch, die wahren Kosten unserer Entscheidungen zu verstehen. * Nachweisbare Fähigkeiten in schriftlicher und mündlicher Kommunikation und Zusammenarbeit.Benefits
* Moderne Büroflächen auf dem Old Broadwick-Campus mit einfacher Anbindung an Verkehrsmittel und Einrichtungen * Hybrid-Arbeitsmodell * 28 Tage Urlaubspaket * 21 Tage Urlaubsgeld * Premium-Unfall-Todesfall-Versicherung * Mitarbeiter-Unterstützungsprogramm * Erste-Hilfe-Kräfte für psychische Gesundheit * Empfehlungsprämie * Zusätzliche Krankentage für langjährige Dienste undJobdetails