Stellenangebot
Site Reliability Engineer
Der Job als Site Reliability Engineer bei Man Group umfasst die Gewährleistung der Zuverlässigkeit, Widerstandsfähigkeit und Leistung der Technologie, die die Edge-Plattform des Unternehmens antreibt. Der SRE wird Teil eines hochleistungsfähigen Teams sein und an der Lösung von komplexen Problemen zusammen mit den Technologie-Entwicklerteams arbeiten, um große Projekte voranzutreiben.
Die Rolle
Join our high-performing Site Reliability Engineering (SRE) team und spiele eine wichtige Rolle bei der Gewährleistung der Zuverlässigkeit, Widerstandsfähigkeit und Leistung der Technologie, die die Edge-Plattform von Man Group antreibt. Dies ist eine Gelegenheit, an bahnbrechenden Problemen zusammen mit den Technologie-Entwicklerteams zu arbeiten, um groß angelegte Projekte voranzutreiben. Du wirst Mentorship von erfahrenen Führungskräften erhalten und ein tiefes Verständnis für Technologie und Geschäft entwickeln.Role Responsibilities
Als SRE wirst du die Verantwortung für die Service-Zuverlässigkeit übernehmen und Lösungen entwickeln, die einen echten Einfluss haben. Dein anfänglicher Fokus wird die Nutzung von KI zur Beschleunigung der Incident-Diagnose und -Lösung, die Verbesserung der Beobachtbarkeit, die Kapazitätsplanung und die Automatisierung umfassen. Anschließend wirst du an der gesamten Infrastruktur-Stack arbeiten, alle Stufen umfassend und kontinuierliche Verbesserungen vorantreiben. - Stelle sicher, dass kritische Systeme über die globale Infrastruktur hinweg zuverlässig und leistungsfähig sind, durch proaktive Überwachung und schnelle Incident-Reaktion - Entwickle und implementiere Beobachtbarkeitslösungen mit Tools wie Prometheus, OpenTSDB, EFK und Loki, um aussagekräftige und handhabbare Metriken bereitzustellen - Arbeite mit Ingenieuren zusammen, um hochwertige Lösungen zu liefern - Automatisiere operative Aufgaben und baue Selbstbedienungsfähigkeiten auf, um Routinearbeiten zu eliminieren und die Effizienz zu verbessern - Entwickle und pflege SLIs, SLOs, Fehlerbudgets und führe Root-Cause-Analysen durch, um Zuverlässigkeitsverbesserungen zu leiten und Ingenieur-Prioritäten zu informieren - Nimm an On-Call-Rotationen teil, sei Teil von Post-Mortems und implementiere präventive Maßnahmen, um Incidenten zu verhindern - Arbeite mit Entwicklungsteams zusammen, um Systemdesign, Deployment-Praktiken und operative Exzellenz zu verbessern - Konfiguriere und pflege Builds, verwaltet Asset-Speicher, große CPU/GPU-Deployments und hochleistungsfähige verteilte Systeme - Trage zur Kapazitätsplanung und Leistungsprognose bei, um sicherzustellen, dass Systeme die Geschäftsanforderungen erfüllen - Verwalte mehrere ELK-Cluster, die Hunderte von Terabyte an Log-Daten, Telemetrie- und APM-Daten hostenSchlüsselkompetenzen
Erforderlich
- Gutes Verständnis von SRE-Prinzipien, einschließlich SLIs, SLOs, Fehlerbudgets und Zuverlässigkeitstestpraxis - Starke Erfahrung und Verständnis von Kubernetes (Deploy-Strategien, Kubernetes-Pods, Container usw.), Linux, EFK, Loki, Prometheus und anderen Beobachtbarkeitstools - Kenntnisse in Automatisierungstools (Ansible, Terraform) und Skript-/Programmiersprachen (Python, Go, Perl usw.) - Starke Fähigkeiten zur Fehlersuche und -behebung in verteilten Systemen, mit der Fähigkeit, komplexe Produktionsprobleme unter Druck zu diagnostizieren - Erfahrung mit Visualisierung, Überwachung, On-Call-Rotationen und Post-Incident-Reviews - Vertrautheit mit Kubernetes und Container-OrchestrierungVorteilhaft
- Erfahrung mit CICD-Pipelines und Source-Control-Workflows (Git, Jenkins, TeamCity/GitLab) - Administration von Linux- und Windows-Systemen und Erfahrung mit Cloud-Technologien (AWS/Azure) - Verständnis von Netzwerk-Konzepten, Lastverteilung und verteilten Architekturen - Kenntnisse von AIOps/MJobdetails