Offerta di lavoro
Ingegnere affidabilità sito
L'annuncio di lavoro descrive una posizione come Site Reliability Engineer presso Man Group, in cui il candidato sarà responsabile dell'affidabilità, della stabilità e delle prestazioni delle piattaforme tecnologiche. Il lavoro offre l'opportunità di lavorare a progetti innovativi e di migliorare il futuro della piattaforma, con particolare attenzione agli strumenti e alle tecnologie di machine learning.
Il ruolo
Entra a far parte del nostro team di Site Reliability Engineering (SRE) ad alte prestazioni e contribuisci in modo determinante a garantire l'affidabilità, la stabilità e le prestazioni delle nostre piattaforme tecnologiche attraverso strumenti di machine learning (ML) come Prometheus, Grafana, New Relic e altri ancora.responsabilità di ruolo
In qualità di SRE, sarai responsabile dell'affidabilità del servizio e fornirai soluzioni in grado di fare davvero la differenza. I tuoi compiti iniziali comprenderanno:- L'uso dell'intelligenza artificiale per accelerare la diagnosi e la risoluzione degli incidenti
- Il miglioramento dell'osservabilità, della pianificazione delle capacità e dell'automazione
Responsabilità
- Garantire l'affidabilità e le prestazioni dei sistemi critici nell'infrastruttura globale attraverso un monitoraggio proattivo e una risposta rapida agli incidenti. - Progettare e implementare soluzioni di osservabilità con strumenti quali Prometheus, Datadog, ELK e Loki per fornire funzionalità di monitoraggio e allerta. - Collaborare con più team per migliorare la progettazione dei sistemi, le pratiche di distribuzione e l'eccellenza operativa. - Risolvere i problemi con sicurezza, gestire i turni di reperibilità, le distribuzioni su larga scala di CPU/GPU e i sistemi di distribuzione ad alte prestazioni. - Contribuire alla pianificazione della capacità e all'ottimizzazione delle prestazioni per garantire che i sistemi soddisfino i requisiti aziendali. - Gestire più cluster ELK che ospitano centinaia di terabyte di dati di log, telemetria e APM.Competenze chiave
Richiesto:- Ottima conoscenza dei principi SRE, inclusi SLI, SLO, budget di errore e pratiche di test di affidabilità
- Solida esperienza e profonda conoscenza di strumenti quali Prometheus, Grafana, ELK Stack o simili
- Conoscenza degli strumenti di automazione (Ansible, Terraform) e dei linguaggi di scripting/programmazione (Python, Go, Perl/C)
- Ottima padronanza della ricerca dei guasti e del debug su sistemi distribuiti, con la capacità di diagnosticare problemi complessi in produzione anche in situazioni di stress
- Esperienza in materia di containerizzazione, turni di reperibilità e analisi post-incidente
- Familiarità con Kubernetes e le soluzioni di orchestrazione dei container
- Mentalità proattiva e capacità di assumersi la responsabilità delle iniziative volte a garantire l'affidabilità
Vantaggi
- Spazi di lavoro moderni nel campus OPD, con facile accesso ai mezzi di trasporto e ai servizi - Un modello di lavoro ibrido - Pacchetto retributivo flessibile - 25 giorni di ferie pagate - Programma pensionistico premium - Programma aziendale di sostegno alla salute mentale per i dipendenti di lunga data e i volontari - Giorni di malattia aggiuntivi - Tessere multifunzionali - Opportunità di sviluppo professionale, inclusi Tech-Talks interni - Una cultura di responsabilità personale e impegno nei confronti della comunità aziendaleDettagli sul lavoro