Stellenangebot

Site Reliability Engineer

Die Stellenanzeige ist für einen Site Reliability Engineer bei Man Group, einem globalen Anlageverwaltungsunternehmen, der für die Gewährleistung der Zuverlässigkeit, Stabilität und Leistung der Technologieplattform verantwortlich ist. Der Stelleninhaber wird Teil eines hochleistungsfähigen Teams sein und an der Entwicklung von Lösungen für die Überwachung und Verbesserung der Systemleistung arbeiten.

Die Rolle

Join unseres hochleistungsfähigen Site Reliability Engineering (SRE)-Teams und spiele eine wichtige Rolle bei der Gewährleistung der Zuverlässigkeit, Stabilität und Leistung der Technologie, die Man AHLs Multi-Strategie-Plattform antreibt. Dies ist eine Chance, an bahnbrechenden Projekten zu arbeiten und die Zukunft unserer Plattform zu gestalten.

Verantwortlichkeiten

  • Zuverlässigkeit und Leistung kritischer Systeme über die globale Infrastruktur hinweg durch proaktive Überwachung und schnelle Reaktion auf Vorfälle sicherstellen.
  • Beobachtbarkeitslösungen mit Tools wie Prometheus, Datadog, ELK und Loki entwerfen und implementieren, um sinnvolle und schnelle Einblicke zu liefern.
  • Mit Engineering-Teams zusammenarbeiten, um Systemdesign, Bereitstellungspraktiken und betriebliche Exzellenz zu verbessern.
  • Neue Standorte konfigurieren und installieren, Asset-Lebenszyklus, große GPU/CPU-Bereitstellungen und Hochleistungs-Verteilungssysteme verwalten.
  • Bei der Kapazitätsplanung und Leistungsbenchmarking mitwirken, um sicherzustellen, dass Systeme die Geschäftsanforderungen erfüllen.
  • Mehrere ELK-Cluster verwalten, die Hunderte von Terabyte an Log-Daten, Telemetrie- und APM-Daten enthalten.

Schlüsselkompetenzen

  • Starkes Verständnis von SRE-Prinzipien, einschließlich SLIs, SLOs, Fehlerbudgets und Zuverlässigkeitstestpraxis.
  • Starke Erfahrung mit Beobachtbarkeitstools wie Prometheus, Datadog, ELK, Loki usw., idealerweise über mehrere Clouds hinweg.
  • Kenntnisse in Automatisierungstools (Ansible, Terraform) und Skript-/Programmiersprachen (Python, Go, PowerShell).
  • Starke Fähigkeiten zur Fehlersuche und -behebung in verteilten Systemen, mit der Fähigkeit, komplexe Produktionsprobleme unter Druck zu diagnostizieren.
  • Erfahrung mit Containern, On-Call-Rotationen und Post-Incident-Reviews.
  • Vertrautheit mit Kubernetes und Container-Orchestrierung.

Vorteile

  • Erfahrung mit AWS/GCP-Produkten und Exposition gegenüber Cloud-Technologien (AWS/Azure).
  • Verständnis von Netzwerkkonzepten, Lastverteilung und verteilten Architekturen.
  • Bewusstsein für FAIR/ITAM-Prinzipien, um sicherzustellen, dass wir die wahren Kosten unserer Entscheidungen verstehen.
  • Vertrautheit mit IT-Service-Management-Kommunikation und -Kollaborationsfähigkeiten.

Leistungen

  • Modernes Büro in der Aldgate-Campus mit einfacher Anbindung an Verkehrsmittel und Einrichtungen.
  • Hybrides Arbeitsmodell.
  • Wettbewerbsfähiges Vergütungspaket.
  • 25 Tage Urlaubsgeld.
  • Premium-Krankenversicherung.
  • Rentenvereinbarung mit 6% Arbeitgeberanteil.
  • Empfehlungsprämie.
  • Zusätzlicher Tag Urlaub für langjährige Dienste und neue Mitarbeiter.
  • Möglichkeiten zur beruflichen Entwicklung, einschließlich interner Tech-Talks-Serien und Engagement mit dem Alumni-Netzwerk.

Jobdetails

© 2025 House of Skills by skillaware. Alle Rechte vorbehalten.
Unsere Website nutzt Cookies, um dir die Navigation zu erleichtern und die Nutzung der Seite zu analysieren. Mehr Informationen findest du in unserer Datenschutzrichtlinie.