Offerta di lavoro
Ingegnere affidabilità sito
In qualità di Site Reliability Engineer presso Man Group, sarai responsabile dell'affidabilità, della stabilità e delle prestazioni della tecnologia che supporta la piattaforma multi-asset dell'azienda. Lavorerai allo sviluppo e all'implementazione di soluzioni per il monitoraggio e l'ottimizzazione dei sistemi, al fine di garantire un'elevata disponibilità e prestazioni ottimali.
Descrizione del lavoro: Ingegnere affidabilità sito
Compiti
- Garantire l'affidabilità e le prestazioni dei sistemi critici attraverso l'infrastruttura globale grazie al monitoraggio proattivo e alla risposta rapida agli incidenti.
- Progettazione e implementazione di soluzioni di osservabilità con strumenti quali Prometheus, Datadog, ELK, per fornire approfondimenti e consentire decisioni basate sui dati.
- Sviluppo e manutenzione di SLA, SLO, SLI, budget di errore per guidare i miglioramenti dell'affidabilità e informare le priorità ingegneristiche con i dati.
- Automazione delle attività operative e sviluppo di funzionalità self-service per eliminare gli sprechi e migliorare l'efficienza.
- Partecipazione alle attività di risposta agli incidenti, analisi post mortem senza biasimo e implementazione di misure preventive per ridurre i guasti.
- Collaborazione con i team di sviluppo per migliorare la progettazione dei sistemi, le pratiche di implementazione e l'eccellenza operativa.
- Configurazione di strumenti CI/CD, gestione dell'auto-scaling, grandi implementazioni GPU/CPU e sistemi distribuiti ad alte prestazioni.
- Contributo alla pianificazione della capacità e al budgeting delle prestazioni per garantire che i sistemi soddisfino le esigenze aziendali.
- Gestione di più cluster ELK che ospitano centinaia di terabyte di dati di log, telemetria e APM.
Requisiti
- Ottima comprensione dei principi SRE, inclusi SLA, SLO, budget di errore e pratiche di test di affidabilità.
- Familiarità con strumenti di automazione (Ansible, Terraform) e linguaggi di scripting/programmazione (Python, Go o simili).
- Ottime capacità di risoluzione dei problemi e debug su sistemi distribuiti, con la capacità di diagnosticare problemi di produzione complessi sotto pressione.
- Esperienza nella gestione delle infrastrutture, ad esempio turni di reperibilità, revisioni post-incidente.
- Familiarità con Kubernetes e l'orchestrazione dei container.
- Una mentalità preventiva e la capacità di assumersi la responsabilità delle iniziative volte a garantire l'affidabilità.
Vantaggi
- Esperienza con AIOps/CICD pipeline e strumenti come Jenkins, TeamCity.
- Amministrazione di sistemi Linux e Windows ed esposizione alle tecnologie cloud (AWS/Azure).
- Comprensione dei concetti di rete, bilanciamento del carico e architetture distribuite.
- Conoscenza di ALM (Application Lifecycle Management), strumenti per team DevOps, team DevOps.
- Familiarità con i principi ITIL v4; desiderio di comprendere il reale valore delle nostre decisioni.
- Supportato in India, motivato a raggiungere il successo in ruoli di comunicazione e collaborazione a distanza.
Vantaggi
- Moderni uffici situati nel campus MOEIOff, con facile accesso ai mezzi di trasporto e ai servizi.
- Modello di lavoro ibrido.
- Pacchetto retributivo competitivo.
- 2,5 giorni di indennità di ferie.
- Assicurazione sanitaria a premio.
- Programma di realtà aumentata aziendale.
- Bonus di raccomandazione.
- Mobilitazione per servizi di lunga durata e volontariato.
- Scheda multifunzione.
- Opportunità di crescita professionale, inclusi tech talk interni.
- Supporto riservato e impegno con i gruppi di risorse per i dipendenti di Man Group.
Dettagli sul lavoro