Stellenangebot

Site Reliability Engineer

Als Site Reliability Engineer bei Man Group bist du für die Zuverlässigkeit, Stabilität und Leistung der Technologie verantwortlich, die die Multi-Asset-Plattform des Unternehmens unterstützt. Du wirst an der Entwicklung und Implementierung von Lösungen zur Überwachung und Optimierung von Systemen arbeiten, um eine hohe Verfügbarkeit und Leistung sicherzustellen.

Ausland

Man Investments AG

100%

Stellenbeschreibung: Site Reliability Engineer

Aufgaben

Sicherstellung der Zuverlässigkeit und Leistung von kritischen Systemen über die globale Infrastruktur durch proaktive Überwachung und schnelle Incident-Reaktion.
Entwurf und Implementierung von Observability-Lösungen mit Tools wie Prometheus, Datadog, ELK, um Einblicke zu liefern und datengetriebene Entscheidungen zu ermöglichen.
Entwicklung und Wartung von SLAs, SLOs, SLI, Fehlerbudgets, um Zuverlässigkeitsverbesserungen zu leiten und Ingenieur-Prioritäten mit Daten zu informieren.
Automatisierung von Betriebsaufgaben und Aufbau von Self-Service-Fähigkeiten, um Toil zu eliminieren und die Effizienz zu verbessern.
Teilnahme an Incident-Reaktionsbemühungen, blameless Post-Mortems und Implementierung von präventiven Maßnahmen, um Ausfälle zu reduzieren.
Zusammenarbeit mit Entwicklungsteams, um Systemdesign, Deployment-Praktiken und operative Exzellenz zu verbessern.
Konfiguration von CI/CD-Tools, Verwaltung von Auto-Scaling, großen GPU/CPU-Deployments und hochleistungsfähigen verteilten Systemen.
Beitrag zur Kapazitätsplanung und Leistungsbudgetierung, um sicherzustellen, dass Systeme Geschäftsanforderungen erfüllen.
Verwaltung von mehreren ELK-Clustern, die Hunderte von Terabyte Log-, Telemetry- und APM-Daten hosten.

Anforderungen

Starkes Verständnis von SRE-Prinzipien, einschließlich SLAs, SLOs, Fehlerbudgets und Zuverlässigkeitstestpraktiken.
Vertrautheit mit Automatisierungstools (Ansible, Terraform) und Skript-/Programmiersprachen (Python, Go oder ähnlich).
Starke Troubleshooting- und Debugging-Fähigkeiten über verteilte Systeme, mit der Fähigkeit, komplexe Produktionsprobleme unter Druck zu diagnostizieren.
Erfahrung mit Infrastrukturmanagement, z.B. On-Call-Rotationen, Post-Incident-Reviews.
Vertrautheit mit Kubernetes und Container-Orchestrierung.
Eine präventive Denkweise und die Fähigkeit, Verantwortung für Zuverlässigkeitsinitiativen zu übernehmen.

Advantages

Erfahrung mit AIOps/CICD-Pipelines und Tools wie Jenkins, TeamCity.
Verwaltung von Linux- und Windows-Systemen und Exposition gegenüber Cloud-Technologien (AWS/Azure).
Verständnis von Netzwerkkonzepten, Lastbalancierung und verteilten Architekturen.
Kenntnisse von ALM (Application Lifecycle Management), Tooling für DevOps-Teams, DevOps-Teams.
Vertrautheit mit ITIL v4-Prinzipien; Wunsch, den tatsächlichen Nutzen unserer Entscheidungen zu verstehen.
Unterstützt in Indien, motiviert, in Remote-Kommunikations- und Kollaborationsrollen erfolgreich zu sein.

Benefits

Moderne Büroräume, gelegen im MOEIOff-Campus mit einfachem Zugang zu Verkehr und Einrichtungen.
Hybrides Arbeitsmodell.
Wettbewerbsfähiges Vergütungspaket.
2,5 Tage Urlaubsgeld.
Prämien-Krankenversicherung.
Unternehmens- Augmented-Reality-Programm.
Empfehlungsbonus.
Mobilisierung für lange Dienste und Freiwilligenarbeit.
Multifunktionskarte.
Gelegenheiten für berufliche Entwicklung, einschließlich interner Tech-Talks.
Vertrauliche Unterstützung und Engagement mit den Employee Resource Groups von Man Group.