Offerta di lavoro

Ingegnere affidabilità sito

L'annuncio di lavoro riguarda la posizione di Site Reliability Engineer presso Man Group, una società globale di gestione patrimoniale, con il compito di garantire l'affidabilità, la stabilità e le prestazioni della piattaforma tecnologica. Il candidato prescelto entrerà a far parte di un team altamente qualificato e lavorerà allo sviluppo di soluzioni per il monitoraggio e il miglioramento delle prestazioni del sistema.

Il ruolo

Entra a far parte del nostro team di Site Reliability Engineering (SRE) ad alte prestazioni e ricopri un ruolo fondamentale nel garantire l'affidabilità, la stabilità e le prestazioni della tecnologia che alimenta la piattaforma multi-strategia di Man AHL. Si tratta di un'opportunità per lavorare a progetti all'avanguardia e plasmare il futuro della nostra piattaforma.

Responsabilità

  • Garantire l'affidabilità e le prestazioni dei sistemi critici su tutta l'infrastruttura globale attraverso un monitoraggio proattivo e una risposta rapida agli incidenti.
  • Progettare e implementare soluzioni di monitoraggio con strumenti quali Prometheus, Datadog, ELK e Loki, al fine di fornire informazioni utili e tempestive.
  • Collaborare con i team di ingegneri per migliorare la progettazione dei sistemi, le pratiche di implementazione e l'eccellenza operativa.
  • Configurare e installare nuove sedi, gestire il ciclo di vita delle risorse, grandi implementazioni di GPU/CPU e sistemi di distribuzione ad alte prestazioni.
  • Collaborare alla pianificazione della capacità e al benchmarking delle prestazioni per garantire che i sistemi soddisfino le esigenze aziendali.
  • Gestire diversi cluster ELK che contengono centinaia di terabyte di dati di log, dati di telemetria e dati APM.

Competenze chiave

  • Ottima conoscenza dei principi SRE, inclusi SLI, SLO, budget di errore e pratiche di test di affidabilità.
  • Solida esperienza con strumenti di monitoraggio quali Prometheus, Datadog, ELK, Loki ecc., preferibilmente su più piattaforme cloud.
  • Conoscenza degli strumenti di automazione (Ansible, Terraform) e dei linguaggi di scripting e di programmazione (Python, Go, PowerShell).
  • Ottime capacità di individuazione e risoluzione dei problemi nei sistemi distribuiti, con la capacità di diagnosticare problemi complessi in produzione anche in situazioni di stress.
  • Esperienza con container, turni di reperibilità e analisi post-incidente.
  • Familiarità con Kubernetes e l'orchestrazione dei container.

Vantaggi

  • Esperienza con i prodotti AWS/GCP e familiarità con le tecnologie cloud (AWS/Azure).
  • Comprensione dei concetti di rete, del bilanciamento del carico e delle architetture distribuite.
  • Consapevolezza dei principi FAIR/ITAM, per garantire che comprendiamo i costi reali delle nostre decisioni.
  • Familiarità con le comunicazioni relative alla gestione dei servizi IT e con le competenze di collaborazione.

Servizi

  • Moderno ufficio nel campus di Aldgate, ben collegato ai mezzi di trasporto e ai servizi.
  • Modello di lavoro ibrido.
  • Pacchetto retributivo competitivo.
  • 25 giorni di indennità di ferie.
  • Assicurazione sanitaria premium.
  • Accordo pensionistico con un contributo del datore di lavoro pari al 6%.
  • Premio di segnalazione.
  • Un giorno di ferie in più per i dipendenti di lunga data e per i nuovi assunti.
  • Opportunità di crescita professionale, tra cui cicli di conferenze tecniche interne e coinvolgimento nella rete degli ex dipendenti.

Dettagli sul lavoro

© 2025 House of Skills by skillaware. Tutti i diritti riservati.
Il nostro sito web utilizza i cookie per facilitarvi la navigazione e per analizzare l'utilizzo del sito. Per ulteriori informazioni, consultare la nostra informativa sulla privacy.