Offerta di lavoro

Ingegnere affidabilità sito

In qualità di Site Reliability Engineer, sarai responsabile dell'affidabilità, della stabilità e delle prestazioni dell'infrastruttura e svolgerai un ruolo importante nella progettazione del futuro della nostra piattaforma. Lavorerai a progetti innovativi e avrai l'opportunità di imparare da manager esperti.

All'estero

Man Investments AG

100%

Descrizione del lavoro: Ingegnere affidabilità sito

Compiti

Garantire l'affidabilità e le prestazioni dei sistemi critici dell'infrastruttura globale attraverso il monitoraggio proattivo e la risposta rapida agli incidenti.
Progettazione e implementazione di soluzioni di osservabilità con strumenti quali Prometheus, Datadog, ELK e Loki per una risposta rapida ed efficace agli incidenti.
Sviluppo e manutenzione di SLI/SLO per il controllo dei miglioramenti dell'affidabilità e per informare le priorità degli ingegneri.
Automazione delle attività operative e sviluppo di funzionalità self-service per eliminare i colli di bottiglia e migliorare l'efficienza.
Partecipazione ad analisi post mortem, post mortem senza biasimo e implementazione di misure preventive per evitare il ripetersi dei problemi.
Collaborazione con i team di sviluppo per migliorare la progettazione dei sistemi, le pratiche di implementazione e l'eccellenza operativa.
Configurazione e implementazione di infrastrutture su larga scala e sistemi distribuiti ad alte prestazioni.
Contributo alla pianificazione della capacità e al budgeting delle prestazioni per garantire che i sistemi soddisfino le esigenze aziendali.
Gestione di più cluster ELK che ospitano centinaia di terabyte di dati di log, telemetria e APM.

Requisiti

Ottima comprensione dei principi SRE, inclusi SLI, SLO, budget di errore e pratiche di test di affidabilità.
Solida esperienza nello sviluppo e nella gestione di software, con conoscenze di Python, Java o linguaggi di programmazione simili (Java/Scala, Terraform e linguaggi di scripting/programmazione (Python, Php, Perl/Csh)).
Ottime capacità di risoluzione dei problemi e debug in sistemi distribuiti, con la capacità di diagnosticare problemi di produzione complessi sotto pressione.
Competenza nella gestione degli incidenti, nei turni di reperibilità e nelle revisioni post-incidente.
Familiarità con Kubernetes e l'orchestrazione dei container.
Mentalità proattiva e capacità di assumersi la responsabilità delle iniziative volte a garantire l'affidabilità.
Esperienza con strumenti e pratiche SRE/DevOps (ad es. PagerDuty, OpsGenie, ELK, Log o simili).
Amministrazione di sistemi Linux e Windows ed esperienza con tecnologie cloud (AWS/Azure).
Comprensione dei concetti di rete, bilanciamento del carico e architetture distribuite.
Conoscenza dei principi ALM/CMMI; desiderio di comprendere i costi effettivi delle decisioni.
Comprovata esperienza nelle capacità di comunicazione e collaborazione.