Stellenangebot

Site Reliability Engineer

Die Stellenanzeige ist für einen Site Reliability Engineer bei Man Group, einem globalen Anlageverwaltungsunternehmen, der für die Gewährleistung der Zuverlässigkeit, Stabilität und Leistung der Technologieplattform verantwortlich ist. Der Stelleninhaber wird Teil eines hochleistungsfähigen Teams sein und an der Entwicklung von Lösungen für die Überwachung und Verbesserung der Systemleistung arbeiten.

Ausland

Man Investments AG

100%

Die Rolle

Join unseres hochleistungsfähigen Site Reliability Engineering (SRE)-Teams und spiele eine wichtige Rolle bei der Gewährleistung der Zuverlässigkeit, Stabilität und Leistung der Technologie, die Man AHLs Multi-Strategie-Plattform antreibt. Dies ist eine Chance, an bahnbrechenden Projekten zu arbeiten und die Zukunft unserer Plattform zu gestalten.

Verantwortlichkeiten

Zuverlässigkeit und Leistung kritischer Systeme über die globale Infrastruktur hinweg durch proaktive Überwachung und schnelle Reaktion auf Vorfälle sicherstellen.
Beobachtbarkeitslösungen mit Tools wie Prometheus, Datadog, ELK und Loki entwerfen und implementieren, um sinnvolle und schnelle Einblicke zu liefern.
Mit Engineering-Teams zusammenarbeiten, um Systemdesign, Bereitstellungspraktiken und betriebliche Exzellenz zu verbessern.
Neue Standorte konfigurieren und installieren, Asset-Lebenszyklus, große GPU/CPU-Bereitstellungen und Hochleistungs-Verteilungssysteme verwalten.
Bei der Kapazitätsplanung und Leistungsbenchmarking mitwirken, um sicherzustellen, dass Systeme die Geschäftsanforderungen erfüllen.
Mehrere ELK-Cluster verwalten, die Hunderte von Terabyte an Log-Daten, Telemetrie- und APM-Daten enthalten.

Schlüsselkompetenzen

Starkes Verständnis von SRE-Prinzipien, einschließlich SLIs, SLOs, Fehlerbudgets und Zuverlässigkeitstestpraxis.
Starke Erfahrung mit Beobachtbarkeitstools wie Prometheus, Datadog, ELK, Loki usw., idealerweise über mehrere Clouds hinweg.
Kenntnisse in Automatisierungstools (Ansible, Terraform) und Skript-/Programmiersprachen (Python, Go, PowerShell).
Starke Fähigkeiten zur Fehlersuche und -behebung in verteilten Systemen, mit der Fähigkeit, komplexe Produktionsprobleme unter Druck zu diagnostizieren.
Erfahrung mit Containern, On-Call-Rotationen und Post-Incident-Reviews.
Vertrautheit mit Kubernetes und Container-Orchestrierung.

Vorteile

Erfahrung mit AWS/GCP-Produkten und Exposition gegenüber Cloud-Technologien (AWS/Azure).
Verständnis von Netzwerkkonzepten, Lastverteilung und verteilten Architekturen.
Bewusstsein für FAIR/ITAM-Prinzipien, um sicherzustellen, dass wir die wahren Kosten unserer Entscheidungen verstehen.
Vertrautheit mit IT-Service-Management-Kommunikation und -Kollaborationsfähigkeiten.

Leistungen

Modernes Büro in der Aldgate-Campus mit einfacher Anbindung an Verkehrsmittel und Einrichtungen.
Hybrides Arbeitsmodell.
Wettbewerbsfähiges Vergütungspaket.
25 Tage Urlaubsgeld.
Premium-Krankenversicherung.
Rentenvereinbarung mit 6% Arbeitgeberanteil.
Empfehlungsprämie.
Zusätzlicher Tag Urlaub für langjährige Dienste und neue Mitarbeiter.
Möglichkeiten zur beruflichen Entwicklung, einschließlich interner Tech-Talks-Serien und Engagement mit dem Alumni-Netzwerk.

Original Job-Beschreibung

Jobdetails

Gefunden am:

14/4/2026

Arbeitgeber:

Man Investments AG

Stellenprozent:

100%

Arbeitsort:

Ausland

Stelle gefunden auf:

https://job-boards.eu.greenhouse.io/mangroup/jobs/4714467101