Offerta di lavoro
Ingegnere affidabilità sito
In qualità di Site Reliability Engineer, sarai responsabile dell'affidabilità, della stabilità e delle prestazioni dell'infrastruttura e svolgerai un ruolo importante nella progettazione del futuro della nostra piattaforma. Lavorerai a progetti innovativi e avrai l'opportunità di imparare da manager esperti.
Descrizione del lavoro: Ingegnere affidabilità sito
Compiti
- Garantire l'affidabilità e le prestazioni dei sistemi critici dell'infrastruttura globale attraverso il monitoraggio proattivo e la risposta rapida agli incidenti.
- Progettazione e implementazione di soluzioni di osservabilità con strumenti quali Prometheus, Datadog, ELK e Loki per una risposta rapida ed efficace agli incidenti.
- Sviluppo e manutenzione di SLI/SLO per il controllo dei miglioramenti dell'affidabilità e per informare le priorità degli ingegneri.
- Automazione delle attività operative e sviluppo di funzionalità self-service per eliminare i colli di bottiglia e migliorare l'efficienza.
- Partecipazione ad analisi post mortem, post mortem senza biasimo e implementazione di misure preventive per evitare il ripetersi dei problemi.
- Collaborazione con i team di sviluppo per migliorare la progettazione dei sistemi, le pratiche di implementazione e l'eccellenza operativa.
- Configurazione e implementazione di infrastrutture su larga scala e sistemi distribuiti ad alte prestazioni.
- Contributo alla pianificazione della capacità e al budgeting delle prestazioni per garantire che i sistemi soddisfino le esigenze aziendali.
- Gestione di più cluster ELK che ospitano centinaia di terabyte di dati di log, telemetria e APM.
Requisiti
- Ottima comprensione dei principi SRE, inclusi SLI, SLO, budget di errore e pratiche di test di affidabilità.
- Solida esperienza nello sviluppo e nella gestione di software, con conoscenze di Python, Java o linguaggi di programmazione simili (Java/Scala, Terraform e linguaggi di scripting/programmazione (Python, Php, Perl/Csh)).
- Ottime capacità di risoluzione dei problemi e debug in sistemi distribuiti, con la capacità di diagnosticare problemi di produzione complessi sotto pressione.
- Competenza nella gestione degli incidenti, nei turni di reperibilità e nelle revisioni post-incidente.
- Familiarità con Kubernetes e l'orchestrazione dei container.
- Mentalità proattiva e capacità di assumersi la responsabilità delle iniziative volte a garantire l'affidabilità.
- Esperienza con strumenti e pratiche SRE/DevOps (ad es. PagerDuty, OpsGenie, ELK, Log o simili).
- Amministrazione di sistemi Linux e Windows ed esperienza con tecnologie cloud (AWS/Azure).
- Comprensione dei concetti di rete, bilanciamento del carico e architetture distribuite.
- Conoscenza dei principi ALM/CMMI; desiderio di comprendere i costi effettivi delle decisioni.
- Comprovata esperienza nelle capacità di comunicazione e collaborazione.
Offriamo
- Moderni uffici nel campus OFCOM con facile accesso ai trasporti e ai servizi.
- Modello di lavoro ibrido.
- Stipendio competitivo e pacchetto di benefit.
- 25 giorni di indennità di ferie.
- Assicurazione sanitaria a premio.
- Programma pensionistico personalizzato per l'azienda.
- Bonus mentale.
- Giorni liberi supplementari per anzianità di servizio e volontariato.
- Tessera dipendente.
- Opportunità di crescita professionale, inclusi tech talk interni.
- Fiducia, affinità e impegno con la comunità Man Group.
Dettagli sul lavoro