Stellenangebot

Site Reliability Engineer

Die Stellenanzeige beschreibt eine Position als Site Reliability Engineer bei Man Group, bei der der Bewerber für die Zuverlässigkeit, Stabilität und Leistung von Technologieplattformen verantwortlich ist. Der Job bietet die Möglichkeit, an innovativen Projekten zu arbeiten und die Zukunft der Plattform zu verbessern, mit einem Fokus auf Machine Learning-Tools und -Technologien.

Zürich

Man Investments AG

100%

Die Rolle

Join our high-performing Site Reliability Engineering (SRE) team und spielen Sie eine wichtige Rolle bei der Gewährleistung der Zuverlässigkeit, Stabilität und Leistung unserer Technologieplattformen durch Machine Learning (ML)-Tools wie Prometheus, Grafana, New Relic und mehr.

Rollenverantwortung

Als SRE übernehmen Sie die Verantwortung für die Service-Zuverlässigkeit und liefern Lösungen, die einen echten Einfluss haben. Ihre anfängliche Konzentration umfasst:

Die Nutzung von KI, um die Incident-Diagnose und -Lösung zu beschleunigen
Die Verbesserung der Beobachtbarkeit, Kapazitätsplanung und Automatisierung

Ihre tägliche Arbeit dreht sich um die Infrastruktur-Stack, Betrieb und kontinuierliche Verbesserung.

Verantwortlichkeiten

- Stellen Sie die Zuverlässigkeit und Leistung kritischer Systeme über die globale Infrastruktur hinweg durch proaktives Monitoring und schnelle Incident-Reaktion sicher. - Entwerfen und implementieren Sie Beobachtbarkeitslösungen mit Tools wie Prometheus, Datadog, ELK und Loki, um Überwachungs- und Warnfunktionen bereitzustellen. - Arbeiten Sie mit mehreren Teams zusammen, um die Systemdesign, Deploy-Praktiken und Betriebsexzellenz zu verbessern. - Trennen Sie Probleme mit Selbstvertrauen, verwalten Sie On-Call-Rotationen, große CPU/GPU-Deployments und Hochleistungs-Verteilungssysteme. - Tragen Sie zur Kapazitätsplanung und Leistungsoptimierung bei, um sicherzustellen, dass Systeme die Geschäftsanforderungen erfüllen. - Verwalten Sie mehrere ELK-Cluster, die Hunderte von Terabyte an Log-Daten, Telemetrie- und APM-Daten hosten.

Schlüsselkompetenzen

Erforderlich:

Starkes Verständnis von SRE-Prinzipien, einschließlich SLIs, SLOs, Fehlerbudgets und Zuverlässigkeitstestpraxis
Starkes Erfahrung und tiefes Verständnis von Tools wie Prometheus, Grafana, ELK-Stack oder ähnlich
Kenntnisse in Automatisierungstools (Ansible, Terraform) und Skript-/Programmiersprachen (Python, Go, Perl/C)
Starkes Fehlersuche- und Debugging-Verständnis über verteilte Systeme hinweg, mit der Fähigkeit, komplexe Produktionsprobleme unter Druck zu diagnostizieren
Erfahrung mit Containerisierung, On-Call-Rotationen und Post-Incident-Reviews
Vertrautheit mit Kubernetes und Container-Orchestrierungslösungen
Proaktive Denkweise und Fähigkeit, die Verantwortung für Zuverlässigkeitsinitiativen zu übernehmen

Vorteile

- Moderne Büroflächen im OPD-Campus mit einfacher Anbindung an Verkehr und Einrichtungen - Ein hybrides Arbeitsmodell - Flexibles Vergütungspaket - 25 Tage Urlaubsgeld - Premium-Rentenprogramm - Firmenunterstütztes Programm - Mentale Gesundheit für langjährige Dienste und ehrenamtliche Tätigkeit - Zusätzliche Krankenzeit - Multifunktionale Karte - Möglichkeiten für professionelle Entwicklung, einschließlich interner Tech-Talks - Eine Kultur der Eigenverantwortung und des Engagements mit der Geschäftsgemeinschaft

Original Job-Beschreibung

Jobdetails

Gefunden am:

26/5/2026

Arbeitgeber:

Man Investments AG

Stellenprozent:

100%

Arbeitsort:

Zürich

Stelle gefunden auf:

https://job-boards.eu.greenhouse.io/mangroup/jobs/4714467101