Stellenangebot
Site Reliability Engineer
Als Site Reliability Engineer bei Man Group bist du für die Zuverlässigkeit, Stabilität und Leistung der Technologie verantwortlich, die die Multi-Asset-Plattform des Unternehmens unterstützt. Du wirst an der Entwicklung und Implementierung von Lösungen zur Überwachung und Optimierung von Systemen arbeiten, um eine hohe Verfügbarkeit und Leistung sicherzustellen.
Stellenbeschreibung: Site Reliability Engineer
Aufgaben
- Sicherstellung der Zuverlässigkeit und Leistung von kritischen Systemen über die globale Infrastruktur durch proaktive Überwachung und schnelle Incident-Reaktion.
- Entwurf und Implementierung von Observability-Lösungen mit Tools wie Prometheus, Datadog, ELK, um Einblicke zu liefern und datengetriebene Entscheidungen zu ermöglichen.
- Entwicklung und Wartung von SLAs, SLOs, SLI, Fehlerbudgets, um Zuverlässigkeitsverbesserungen zu leiten und Ingenieur-Prioritäten mit Daten zu informieren.
- Automatisierung von Betriebsaufgaben und Aufbau von Self-Service-Fähigkeiten, um Toil zu eliminieren und die Effizienz zu verbessern.
- Teilnahme an Incident-Reaktionsbemühungen, blameless Post-Mortems und Implementierung von präventiven Maßnahmen, um Ausfälle zu reduzieren.
- Zusammenarbeit mit Entwicklungsteams, um Systemdesign, Deployment-Praktiken und operative Exzellenz zu verbessern.
- Konfiguration von CI/CD-Tools, Verwaltung von Auto-Scaling, großen GPU/CPU-Deployments und hochleistungsfähigen verteilten Systemen.
- Beitrag zur Kapazitätsplanung und Leistungsbudgetierung, um sicherzustellen, dass Systeme Geschäftsanforderungen erfüllen.
- Verwaltung von mehreren ELK-Clustern, die Hunderte von Terabyte Log-, Telemetry- und APM-Daten hosten.
Anforderungen
- Starkes Verständnis von SRE-Prinzipien, einschließlich SLAs, SLOs, Fehlerbudgets und Zuverlässigkeitstestpraktiken.
- Vertrautheit mit Automatisierungstools (Ansible, Terraform) und Skript-/Programmiersprachen (Python, Go oder ähnlich).
- Starke Troubleshooting- und Debugging-Fähigkeiten über verteilte Systeme, mit der Fähigkeit, komplexe Produktionsprobleme unter Druck zu diagnostizieren.
- Erfahrung mit Infrastrukturmanagement, z.B. On-Call-Rotationen, Post-Incident-Reviews.
- Vertrautheit mit Kubernetes und Container-Orchestrierung.
- Eine präventive Denkweise und die Fähigkeit, Verantwortung für Zuverlässigkeitsinitiativen zu übernehmen.
Advantages
- Erfahrung mit AIOps/CICD-Pipelines und Tools wie Jenkins, TeamCity.
- Verwaltung von Linux- und Windows-Systemen und Exposition gegenüber Cloud-Technologien (AWS/Azure).
- Verständnis von Netzwerkkonzepten, Lastbalancierung und verteilten Architekturen.
- Kenntnisse von ALM (Application Lifecycle Management), Tooling für DevOps-Teams, DevOps-Teams.
- Vertrautheit mit ITIL v4-Prinzipien; Wunsch, den tatsächlichen Nutzen unserer Entscheidungen zu verstehen.
- Unterstützt in Indien, motiviert, in Remote-Kommunikations- und Kollaborationsrollen erfolgreich zu sein.
Benefits
- Moderne Büroräume, gelegen im MOEIOff-Campus mit einfachem Zugang zu Verkehr und Einrichtungen.
- Hybrides Arbeitsmodell.
- Wettbewerbsfähiges Vergütungspaket.
- 2,5 Tage Urlaubsgeld.
- Prämien-Krankenversicherung.
- Unternehmens- Augmented-Reality-Programm.
- Empfehlungsbonus.
- Mobilisierung für lange Dienste und Freiwilligenarbeit.
- Multifunktionskarte.
- Gelegenheiten für berufliche Entwicklung, einschließlich interner Tech-Talks.
- Vertrauliche Unterstützung und Engagement mit den Employee Resource Groups von Man Group.
Jobdetails