Offerta di lavoro

Ingegnere affidabilità sito

L'annuncio di lavoro descrive una posizione come Site Reliability Engineer presso Man Group, in cui il candidato sarà responsabile dell'affidabilità, della stabilità e delle prestazioni delle piattaforme tecnologiche. Il lavoro offre l'opportunità di lavorare a progetti innovativi e di migliorare il futuro della piattaforma, con particolare attenzione agli strumenti e alle tecnologie di machine learning.

Il ruolo

Entra a far parte del nostro team di Site Reliability Engineering (SRE) ad alte prestazioni e contribuisci in modo determinante a garantire l'affidabilità, la stabilità e le prestazioni delle nostre piattaforme tecnologiche attraverso strumenti di machine learning (ML) come Prometheus, Grafana, New Relic e altri ancora.

responsabilità di ruolo

In qualità di SRE, sarai responsabile dell'affidabilità del servizio e fornirai soluzioni in grado di fare davvero la differenza. I tuoi compiti iniziali comprenderanno:
  • L'uso dell'intelligenza artificiale per accelerare la diagnosi e la risoluzione degli incidenti
  • Il miglioramento dell'osservabilità, della pianificazione delle capacità e dell'automazione
Il suo lavoro quotidiano ruota attorno allo stack infrastrutturale, alla gestione operativa e al miglioramento continuo.

Responsabilità

- Garantire l'affidabilità e le prestazioni dei sistemi critici nell'infrastruttura globale attraverso un monitoraggio proattivo e una risposta rapida agli incidenti. - Progettare e implementare soluzioni di osservabilità con strumenti quali Prometheus, Datadog, ELK e Loki per fornire funzionalità di monitoraggio e allerta. - Collaborare con più team per migliorare la progettazione dei sistemi, le pratiche di distribuzione e l'eccellenza operativa. - Risolvere i problemi con sicurezza, gestire i turni di reperibilità, le distribuzioni su larga scala di CPU/GPU e i sistemi di distribuzione ad alte prestazioni. - Contribuire alla pianificazione della capacità e all'ottimizzazione delle prestazioni per garantire che i sistemi soddisfino i requisiti aziendali. - Gestire più cluster ELK che ospitano centinaia di terabyte di dati di log, telemetria e APM.

Competenze chiave

Richiesto:
  • Ottima conoscenza dei principi SRE, inclusi SLI, SLO, budget di errore e pratiche di test di affidabilità
  • Solida esperienza e profonda conoscenza di strumenti quali Prometheus, Grafana, ELK Stack o simili
  • Conoscenza degli strumenti di automazione (Ansible, Terraform) e dei linguaggi di scripting/programmazione (Python, Go, Perl/C)
  • Ottima padronanza della ricerca dei guasti e del debug su sistemi distribuiti, con la capacità di diagnosticare problemi complessi in produzione anche in situazioni di stress
  • Esperienza in materia di containerizzazione, turni di reperibilità e analisi post-incidente
  • Familiarità con Kubernetes e le soluzioni di orchestrazione dei container
  • Mentalità proattiva e capacità di assumersi la responsabilità delle iniziative volte a garantire l'affidabilità

Vantaggi

- Spazi di lavoro moderni nel campus OPD, con facile accesso ai mezzi di trasporto e ai servizi - Un modello di lavoro ibrido - Pacchetto retributivo flessibile - 25 giorni di ferie pagate - Programma pensionistico premium - Programma aziendale di sostegno alla salute mentale per i dipendenti di lunga data e i volontari - Giorni di malattia aggiuntivi - Tessere multifunzionali - Opportunità di sviluppo professionale, inclusi Tech-Talks interni - Una cultura di responsabilità personale e impegno nei confronti della comunità aziendale

Dettagli sul lavoro

© 2025 House of Skills by skillaware. Tutti i diritti riservati.
Il nostro sito web utilizza i cookie per facilitarvi la navigazione e per analizzare l'utilizzo del sito. Per ulteriori informazioni, consultare la nostra informativa sulla privacy.