Offerta di lavoro

Ingegnere affidabilità sito

In qualità di Site Reliability Engineer presso Man Group, sarai responsabile dell'affidabilità, della stabilità e delle prestazioni della tecnologia che supporta la piattaforma multi-asset dell'azienda. Lavorerai allo sviluppo e all'implementazione di soluzioni per il monitoraggio e l'ottimizzazione dei sistemi, al fine di garantire un'elevata disponibilità e prestazioni ottimali.

All'estero

Man Investments AG

100%

Descrizione del lavoro: Ingegnere affidabilità sito

Compiti

Garantire l'affidabilità e le prestazioni dei sistemi critici attraverso l'infrastruttura globale grazie al monitoraggio proattivo e alla risposta rapida agli incidenti.
Progettazione e implementazione di soluzioni di osservabilità con strumenti quali Prometheus, Datadog, ELK, per fornire approfondimenti e consentire decisioni basate sui dati.
Sviluppo e manutenzione di SLA, SLO, SLI, budget di errore per guidare i miglioramenti dell'affidabilità e informare le priorità ingegneristiche con i dati.
Automazione delle attività operative e sviluppo di funzionalità self-service per eliminare gli sprechi e migliorare l'efficienza.
Partecipazione alle attività di risposta agli incidenti, analisi post mortem senza biasimo e implementazione di misure preventive per ridurre i guasti.
Collaborazione con i team di sviluppo per migliorare la progettazione dei sistemi, le pratiche di implementazione e l'eccellenza operativa.
Configurazione di strumenti CI/CD, gestione dell'auto-scaling, grandi implementazioni GPU/CPU e sistemi distribuiti ad alte prestazioni.
Contributo alla pianificazione della capacità e al budgeting delle prestazioni per garantire che i sistemi soddisfino le esigenze aziendali.
Gestione di più cluster ELK che ospitano centinaia di terabyte di dati di log, telemetria e APM.

Requisiti

Ottima comprensione dei principi SRE, inclusi SLA, SLO, budget di errore e pratiche di test di affidabilità.
Familiarità con strumenti di automazione (Ansible, Terraform) e linguaggi di scripting/programmazione (Python, Go o simili).
Ottime capacità di risoluzione dei problemi e debug su sistemi distribuiti, con la capacità di diagnosticare problemi di produzione complessi sotto pressione.
Esperienza nella gestione delle infrastrutture, ad esempio turni di reperibilità, revisioni post-incidente.
Familiarità con Kubernetes e l'orchestrazione dei container.
Una mentalità preventiva e la capacità di assumersi la responsabilità delle iniziative volte a garantire l'affidabilità.

Vantaggi

Esperienza con AIOps/CICD pipeline e strumenti come Jenkins, TeamCity.
Amministrazione di sistemi Linux e Windows ed esposizione alle tecnologie cloud (AWS/Azure).
Comprensione dei concetti di rete, bilanciamento del carico e architetture distribuite.
Conoscenza di ALM (Application Lifecycle Management), strumenti per team DevOps, team DevOps.
Familiarità con i principi ITIL v4; desiderio di comprendere il reale valore delle nostre decisioni.
Supportato in India, motivato a raggiungere il successo in ruoli di comunicazione e collaborazione a distanza.

Vantaggi

Moderni uffici situati nel campus MOEIOff, con facile accesso ai mezzi di trasporto e ai servizi.
Modello di lavoro ibrido.
Pacchetto retributivo competitivo.
2,5 giorni di indennità di ferie.
Assicurazione sanitaria a premio.
Programma di realtà aumentata aziendale.
Bonus di raccomandazione.
Mobilitazione per servizi di lunga durata e volontariato.
Scheda multifunzione.
Opportunità di crescita professionale, inclusi tech talk interni.
Supporto riservato e impegno con i gruppi di risorse per i dipendenti di Man Group.