Offerta di lavoro

Ingegnere affidabilità sito

L'annuncio di lavoro riguarda una posizione di Site Reliability Engineer (SRE) presso Man Group, una società globale di gestione patrimoniale, con responsabilità relative all'affidabilità, alla disponibilità e alle prestazioni delle infrastrutture tecnologiche. L'SRE si occuperà dello sviluppo di soluzioni volte ad accelerare la diagnosi e la risoluzione degli incidenti, nonché a migliorare l'osservabilità e l'automazione.

Il ruolo

Entra a far parte del nostro team di Site Reliability Engineering (SRE) ad alte prestazioni e ricopri un ruolo fondamentale nel garantire l'affidabilità, la disponibilità e le prestazioni della tecnologia che sta alla base dei fondi di Man AHL e della nostra innovativa piattaforma di investimento. Si tratta di un'opportunità per lavorare a progetti innovativi. In qualità di SRE, ti assumerai la responsabilità dell'affidabilità dei servizi e delle relative soluzioni, esercitando un impatto concreto. Inizialmente ti concentrerai sull'utilizzo dell'IA per accelerare la diagnosi e la risoluzione degli incidenti, migliorare l'osservabilità, la pianificazione della capacità e l'automazione. Una volta acquisita familiarità con il flusso di lavoro, lavorerai sull'intera infrastruttura, che comprende tutti i livelli, promuovendo miglioramenti continui.

Responsabilità dei ruoli

- Garantire l'affidabilità e le prestazioni dei sistemi critici nell'intera infrastruttura globale attraverso un monitoraggio proattivo e una risposta rapida agli incidenti. - Progettare e implementare soluzioni di osservabilità con strumenti quali Prometheus, Datadog, EFK, Loki e Kube per offrire una visibilità completa. - Sviluppare e mantenere SLA, SLO e budget di errore per guidare i miglioramenti dell'affidabilità e prendere decisioni ingegneristiche. - Automatizzare le attività operative e sviluppare funzionalità self-service per eliminare il lavoro di routine e migliorare l'efficienza. - Sviluppare e mantenere processi e metriche. - Partecipare alle attività di risposta agli incidenti, alle analisi post-mortem senza attribuzione di colpa e all'implementazione di misure preventive per evitare il ripetersi degli incidenti. - Collaborare con i team di sviluppo per migliorare la progettazione dei sistemi, le pratiche di distribuzione e l'eccellenza operativa. - Configurare e gestire grandi risorse di calcolo in sistemi distribuiti. - Contribuire alla pianificazione della capacità e alle previsioni delle prestazioni per garantire che i sistemi soddisfino i requisiti aziendali. - Gestire più cluster ELK che ospitano centinaia di terabyte di dati di log, telemetria e APM.

Competenze chiave

Requisiti: - Buona comprensione dei principi SRE, inclusi SLA, SLO, budget di errore e test di affidabilità. - Almeno 3 anni di esperienza con sistemi distribuiti. Ottima conoscenza di Kubernetes, Docker, Linux. - Conoscenza di strumenti di automazione (Ansible, Terraform) e linguaggi di scripting/programmazione (Python, Go, PowerShell). - Ottime capacità di individuazione e risoluzione dei problemi nei sistemi distribuiti, con la capacità di diagnosticare problemi di produzione complessi sotto pressione. - Esperienza con l'osservabilità, i turni di reperibilità e le revisioni post-incidente. - Familiarità con Kubernetes e l'orchestrazione dei container. Costituisce titolo preferenziale: - Esperienza con pipeline CICD e flussi di lavoro del codice sorgente (Git, Jenkins, TeamCity, GitLab). - Amministrazione di sistemi Linux e Windows ed esperienza con tecnologie cloud (AWS/Azure). - Comprensione dei concetti di rete, bilanciamento del carico e architetture distribuite. - Conoscenza di AIOps/ML Ops (Google Cloud, Amazon Cloud, ecosistema HDP). - Familiarità con i principi FinOps, desiderio di comprendere i costi effettivi delle nostre decisioni. - Eccellenti capacità di comunicazione e collaborazione, sia orale che scritta.

Vantaggi

- Spazi per uffici moderni nel campus di Old Broadwick, con facile accesso ai mezzi di trasporto e ai servizi

Dettagli sul lavoro

© 2025 House of Skills by skillaware. Tutti i diritti riservati.
Il nostro sito web utilizza i cookie per facilitarvi la navigazione e per analizzare l'utilizzo del sito. Per ulteriori informazioni, consultare la nostra informativa sulla privacy.