Offerta di lavoro

Ingegnere affidabilità sito

L'annuncio di lavoro descrive una posizione come Site Reliability Engineer presso Man Group, in cui il candidato sarà responsabile dell'affidabilità, della stabilità e delle prestazioni delle piattaforme tecnologiche. Il lavoro offre l'opportunità di lavorare a progetti innovativi e di migliorare il futuro della piattaforma, con particolare attenzione agli strumenti e alle tecnologie di machine learning.

Zurigo

Man Investments AG

100%

Il ruolo

Entra a far parte del nostro team di Site Reliability Engineering (SRE) ad alte prestazioni e contribuisci in modo determinante a garantire l'affidabilità, la stabilità e le prestazioni delle nostre piattaforme tecnologiche attraverso strumenti di machine learning (ML) come Prometheus, Grafana, New Relic e altri ancora.

responsabilità di ruolo

In qualità di SRE, sarai responsabile dell'affidabilità del servizio e fornirai soluzioni in grado di fare davvero la differenza. I tuoi compiti iniziali comprenderanno:

L'uso dell'intelligenza artificiale per accelerare la diagnosi e la risoluzione degli incidenti
Il miglioramento dell'osservabilità, della pianificazione delle capacità e dell'automazione

Il suo lavoro quotidiano ruota attorno allo stack infrastrutturale, alla gestione operativa e al miglioramento continuo.

Responsabilità

- Garantire l'affidabilità e le prestazioni dei sistemi critici nell'infrastruttura globale attraverso un monitoraggio proattivo e una risposta rapida agli incidenti. - Progettare e implementare soluzioni di osservabilità con strumenti quali Prometheus, Datadog, ELK e Loki per fornire funzionalità di monitoraggio e allerta. - Collaborare con più team per migliorare la progettazione dei sistemi, le pratiche di distribuzione e l'eccellenza operativa. - Risolvere i problemi con sicurezza, gestire i turni di reperibilità, le distribuzioni su larga scala di CPU/GPU e i sistemi di distribuzione ad alte prestazioni. - Contribuire alla pianificazione della capacità e all'ottimizzazione delle prestazioni per garantire che i sistemi soddisfino i requisiti aziendali. - Gestire più cluster ELK che ospitano centinaia di terabyte di dati di log, telemetria e APM.

Competenze chiave

Richiesto:

Ottima conoscenza dei principi SRE, inclusi SLI, SLO, budget di errore e pratiche di test di affidabilità
Solida esperienza e profonda conoscenza di strumenti quali Prometheus, Grafana, ELK Stack o simili
Conoscenza degli strumenti di automazione (Ansible, Terraform) e dei linguaggi di scripting/programmazione (Python, Go, Perl/C)
Ottima padronanza della ricerca dei guasti e del debug su sistemi distribuiti, con la capacità di diagnosticare problemi complessi in produzione anche in situazioni di stress
Esperienza in materia di containerizzazione, turni di reperibilità e analisi post-incidente
Familiarità con Kubernetes e le soluzioni di orchestrazione dei container
Mentalità proattiva e capacità di assumersi la responsabilità delle iniziative volte a garantire l'affidabilità

Vantaggi

- Spazi di lavoro moderni nel campus OPD, con facile accesso ai mezzi di trasporto e ai servizi - Un modello di lavoro ibrido - Pacchetto retributivo flessibile - 25 giorni di ferie pagate - Programma pensionistico premium - Programma aziendale di sostegno alla salute mentale per i dipendenti di lunga data e i volontari - Giorni di malattia aggiuntivi - Tessere multifunzionali - Opportunità di sviluppo professionale, inclusi Tech-Talks interni - Una cultura di responsabilità personale e impegno nei confronti della comunità aziendale

Descrizione del lavoro originale

Dettagli sul lavoro

Trovato su:

26 maggio 2026

Datore di lavoro:

Man Investments AG

lavoro per cento:

100%

Luogo di lavoro:

Zurigo

Luogo trovato su:

https://job-boards.eu.greenhouse.io/mangroup/jobs/4714467101