Stellenangebot
Site Reliability Engineer
Man Group sucht einen Site Reliability Engineer, der die Zuverlässigkeit, Verfügbarkeit und Leistung der Technologieplattform des Unternehmens sicherstellt und an innovativen Projekten arbeitet. Der erfolgreiche Kandidat wird Teil eines hochleistungsfähigen Teams sein und die Möglichkeit haben, sich auf verschiedenen Ebenen des Unternehmens zu entwickeln und zu wachsen.
Die Rolle
Join our high-performing Site Reliability Engineering (SRE) team und spielen Sie eine wichtige Rolle bei der Gewährleistung der Zuverlässigkeit, Verfügbarkeit und Leistung der Technologie, die die Hedge-Fonds, Kredite, Verwahrung und Bankgeschäfte von Man Group antreibt. Dies ist eine Chance, an bahnbrechenden Projekten zu arbeiten und die Zukunft unserer Plattform mitzugestalten.Rollenverantwortung
- Stellen Sie die Zuverlässigkeit und Leistung kritischer Systeme über die globale Infrastruktur hinweg durch proaktive Überwachung und schnelle Reaktion auf Zwischenfälle sicher - Entwerfen und implementieren Sie Observability-Lösungen mit Tools wie Prometheus, Datadog, ELK und Loki, um Einblicke zu gewähren und datengetriebene Entscheidungen zu ermöglichen - Automatisieren Sie operative Aufgaben und bauen Sie Selbstbedienungsfähigkeiten, um Routinearbeiten zu eliminieren und die Effizienz zu verbessern - Entwickeln und pflegen Sie SLIs, SLOs und Fehlerbudgets, um Zuverlässigkeitsverbesserungen zu leiten und Ingenieurprioritäten zu informieren - Nehmen Sie an Reaktionsbemühungen auf Zwischenfälle teil, führen Sie schuldlose Post-Mortems durch und implementieren Sie präventive Maßnahmen, um Fehler zu reduzieren - Arbeiten Sie mit Entwicklungsteams zusammen, um Systemdesign, Bereitstellungspraktiken und betriebliche Exzellenz zu verbessern - Konfigurieren und rollen Sie große Infrastruktur-Upgrades aus; verwalten Sie die Auslastung von Rechnern/Servern und Hochleistungs-Verteilungssysteme - Tragen Sie zu Kapazitätsplanung und Leistungsbudgetierung bei, um sicherzustellen, dass Systeme die Geschäftsanforderungen erfüllen - Verwalten Sie mehrere ELK-Cluster, die Hunderte von Terabyte an Log-Daten, Telemetrie- und APM-Daten hostenSchlüsselkompetenzen
Erforderlich
- Gutes Verständnis von SRE-Prinzipien, einschließlich SLIs, SLOs, Fehlerbudgets und Zuverlässigkeitstests - Erfahrung mit Observability- und Überwachungstools wie Prometheus, Grafana, ELK, Loki oder ähnlichen - Kenntnisse in Automatisierungstools (Ansible, Terraform) und Skript-/Programmiersprachen (Python, Go, PowerShell) - Starke Fähigkeiten zur Fehlersuche und -behebung in verteilten Systemen, mit der Fähigkeit, komplexe Probleme unter Druck zu diagnostizieren - Erfahrung mit Infrastruktur, Containern, On-Call-Rotationen und Post-Incident-Reviews - Vertrautheit mit Kubernetes und Container-OrchestrierungVorteilhaft
- Erfahrung mit CICD-Pipelines und Quellcode-Workflows (Git, Jenkins, TeamCity, GitLab) - Administration von Linux- und Windows-Systemen und Erfahrung mit Cloud-Technologien (AWS/Azure) - Verständnis von Netzwerk-Konzepten, Lastverteilung und verteilten Architekturen - Kenntnisse von AIOps/MLOps (Splunk, Elastic, Grafana, NDP-Peers) - Vertrautheit mit internen Kommunikations- und Kollaborationstools - Vorherige Erfahrung mit Man GroupBenefits
- Moderne Büroflächen im OPD-Campus mit einfacher Anbindung an Verkehrsmittel und Einrichtungen - Hybrid-Arbeitsmodell - 28 Tage Urlaubspaket - 21 Tage Urlaubsgeld - Premium-Rentenbeitrag - Wettbewerbsfähiges Bewerberprogramm - Zusätzliche Gehaltsabrechnung für langjährige Dienste und ehrenamtliche Tätigkeit - Zusätzliche Karte - Möglichkeiten zur professionellen Entwicklung, einschließlich interner Tech-Talks - Sponsoring und Engagement mit den MitarbeiterressourcJobdetails