Offerta di lavoro

Ingegnere affidabilità sito

In qualità di Site Reliability Engineer, sarai responsabile dell'affidabilità, della stabilità e delle prestazioni dell'infrastruttura e svolgerai un ruolo importante nella progettazione del futuro della nostra piattaforma. Lavorerai a progetti innovativi e avrai l'opportunità di imparare da manager esperti.

Descrizione del lavoro: Ingegnere affidabilità sito

Compiti

  • Garantire l'affidabilità e le prestazioni dei sistemi critici dell'infrastruttura globale attraverso il monitoraggio proattivo e la risposta rapida agli incidenti.
  • Progettazione e implementazione di soluzioni di osservabilità con strumenti quali Prometheus, Datadog, ELK e Loki per una risposta rapida ed efficace agli incidenti.
  • Sviluppo e manutenzione di SLI/SLO per il controllo dei miglioramenti dell'affidabilità e per informare le priorità degli ingegneri.
  • Automazione delle attività operative e sviluppo di funzionalità self-service per eliminare i colli di bottiglia e migliorare l'efficienza.
  • Partecipazione ad analisi post mortem, post mortem senza biasimo e implementazione di misure preventive per evitare il ripetersi dei problemi.
  • Collaborazione con i team di sviluppo per migliorare la progettazione dei sistemi, le pratiche di implementazione e l'eccellenza operativa.
  • Configurazione e implementazione di infrastrutture su larga scala e sistemi distribuiti ad alte prestazioni.
  • Contributo alla pianificazione della capacità e al budgeting delle prestazioni per garantire che i sistemi soddisfino le esigenze aziendali.
  • Gestione di più cluster ELK che ospitano centinaia di terabyte di dati di log, telemetria e APM.

Requisiti

  • Ottima comprensione dei principi SRE, inclusi SLI, SLO, budget di errore e pratiche di test di affidabilità.
  • Solida esperienza nello sviluppo e nella gestione di software, con conoscenze di Python, Java o linguaggi di programmazione simili (Java/Scala, Terraform e linguaggi di scripting/programmazione (Python, Php, Perl/Csh)).
  • Ottime capacità di risoluzione dei problemi e debug in sistemi distribuiti, con la capacità di diagnosticare problemi di produzione complessi sotto pressione.
  • Competenza nella gestione degli incidenti, nei turni di reperibilità e nelle revisioni post-incidente.
  • Familiarità con Kubernetes e l'orchestrazione dei container.
  • Mentalità proattiva e capacità di assumersi la responsabilità delle iniziative volte a garantire l'affidabilità.
  • Esperienza con strumenti e pratiche SRE/DevOps (ad es. PagerDuty, OpsGenie, ELK, Log o simili).
  • Amministrazione di sistemi Linux e Windows ed esperienza con tecnologie cloud (AWS/Azure).
  • Comprensione dei concetti di rete, bilanciamento del carico e architetture distribuite.
  • Conoscenza dei principi ALM/CMMI; desiderio di comprendere i costi effettivi delle decisioni.
  • Comprovata esperienza nelle capacità di comunicazione e collaborazione.

Offriamo

  • Moderni uffici nel campus OFCOM con facile accesso ai trasporti e ai servizi.
  • Modello di lavoro ibrido.
  • Stipendio competitivo e pacchetto di benefit.
  • 25 giorni di indennità di ferie.
  • Assicurazione sanitaria a premio.
  • Programma pensionistico personalizzato per l'azienda.
  • Bonus mentale.
  • Giorni liberi supplementari per anzianità di servizio e volontariato.
  • Tessera dipendente.
  • Opportunità di crescita professionale, inclusi tech talk interni.
  • Fiducia, affinità e impegno con la comunità Man Group.

Dettagli sul lavoro

© 2025 House of Skills by skillaware. Tutti i diritti riservati.
Il nostro sito web utilizza i cookie per facilitarvi la navigazione e per analizzare l'utilizzo del sito. Per ulteriori informazioni, consultare la nostra informativa sulla privacy.