Offerta di lavoro

Ingegnere affidabilità sito

Il ruolo di Site Reliability Engineer presso Man Group consiste nel garantire l'affidabilità, la resilienza e le prestazioni della tecnologia che alimenta la piattaforma Edge dell'azienda. L'SRE entrerà a far parte di un team altamente performante e collaborerà alla risoluzione di problemi complessi insieme ai team di sviluppo tecnologico, con l'obiettivo di portare avanti progetti di grande portata.

Il ruolo

Entra a far parte del nostro team di Site Reliability Engineering (SRE) ad alte prestazioni e ricopri un ruolo fondamentale nel garantire l'affidabilità, la resilienza e le prestazioni della tecnologia che alimenta la piattaforma Edge di Man Group. Si tratta di un'opportunità per lavorare su sfide innovative insieme ai team di sviluppo tecnologico, al fine di portare avanti progetti su larga scala. Riceverai il tutoraggio di leader esperti e svilupperai una profonda comprensione della tecnologia e del business.

Responsabilità del ruolo

In qualità di SRE, ti assumerai la responsabilità dell'affidabilità dei servizi e svilupperai soluzioni in grado di avere un impatto concreto. Inizialmente ti concentrerai sull'utilizzo dell'IA per accelerare la diagnosi e la risoluzione degli incidenti, migliorare l'osservabilità, pianificare le capacità e promuovere l'automazione. Successivamente lavorerai sull'intero stack infrastrutturale, coprendo tutti i livelli e promuovendo miglioramenti continui. - Assicurati che i sistemi critici siano affidabili e performanti su tutta l'infrastruttura globale, attraverso il monitoraggio proattivo e la risposta rapida agli incidenti - Sviluppa e implementa soluzioni di osservabilità con strumenti come Prometheus, OpenTSDB, EFK e Loki per fornire metriche significative e gestibili - Collaborare con gli ingegneri per fornire soluzioni di alta qualità - Automatizzare le attività operative e sviluppare funzionalità self-service per eliminare il lavoro di routine e migliorare l'efficienza - Sviluppare e mantenere SLI, SLO, budget di errore ed eseguire analisi delle cause alla radice per guidare i miglioramenti dell'affidabilità e informare le priorità degli ingegneri - Partecipare ai turni di reperibilità, prendere parte alle analisi post-incidente e implementare misure preventive per evitare incidenti - Collaborare con i team di sviluppo per migliorare la progettazione dei sistemi, le pratiche di distribuzione e l'eccellenza operativa - Configurare e gestire build, amministrare archivi di risorse, grandi implementazioni di CPU/GPU e sistemi distribuiti ad alte prestazioni - Contribuire alla pianificazione della capacità e alle previsioni delle prestazioni per garantire che i sistemi soddisfino i requisiti aziendali - Gestire diversi cluster ELK che ospitano centinaia di terabyte di dati di log, telemetria e APM

Competenze chiave

Richiesto

- Buona comprensione dei principi SRE, inclusi SLI, SLO, budget di errore e pratiche di test di affidabilità - Solida esperienza e comprensione di Kubernetes (strategie di distribuzione, pod Kubernetes, container, ecc.), Linux, EFK, Loki, Prometheus e altri strumenti di osservabilità - Conoscenza degli strumenti di automazione (Ansible, Terraform) e dei linguaggi di scripting/programmazione (Python, Go, Perl, ecc.) - Ottime capacità di individuazione e risoluzione dei problemi in sistemi distribuiti, con la capacità di diagnosticare problemi di produzione complessi sotto pressione - Esperienza con visualizzazione, monitoraggio, turni di reperibilità e revisioni post-incidente - Familiarità con Kubernetes e l'orchestrazione dei container

Vantaggioso

- Esperienza con pipeline CI/CD e flussi di lavoro di controllo del codice sorgente (Git, Jenkins, TeamCity/GitLab) - Amministrazione di sistemi Linux e Windows ed esperienza con le tecnologie cloud (AWS/Azure) - Comprensione dei concetti di rete, del bilanciamento del carico e delle architetture distribuite - Conoscenza di AIOps/M

Dettagli sul lavoro

© 2025 House of Skills by skillaware. Tutti i diritti riservati.
Il nostro sito web utilizza i cookie per facilitarvi la navigazione e per analizzare l'utilizzo del sito. Per ulteriori informazioni, consultare la nostra informativa sulla privacy.