Offerta di lavoro
Ingegnere affidabilità sito
Il ruolo di Site Reliability Engineer presso Man Group offre l'opportunità di garantire l'affidabilità, la stabilità e le prestazioni delle piattaforme tecnologiche e di collaborare a progetti innovativi. L'SRE sarà responsabile dello sviluppo di soluzioni volte a migliorare le operazioni e ad aiutare l'azienda a raggiungere i propri obiettivi.
Il ruolo
Entra a far parte del nostro team di Site Reliability Engineering (SRE) ad alte prestazioni e ricopri un ruolo fondamentale nel garantire l'affidabilità, la stabilità e le prestazioni delle nostre piattaforme tecnologiche. Si tratta di un'opportunità per lavorare a progetti innovativi e contribuire a plasmare il futuro della nostra piattaforma.responsabilità di ruolo
* Garantire l'affidabilità e le prestazioni dei sistemi critici nell'infrastruttura globale attraverso un monitoraggio proattivo e una risposta rapida agli incidenti. * Progettare e implementare soluzioni di osservabilità per ottenere informazioni dettagliate sulle prestazioni dei sistemi e individuare opportunità di miglioramento. * Automatizzare le attività operative e sviluppare funzionalità self-service per eliminare le operazioni di routine e migliorare l'efficienza. * Sviluppare e mantenere SLI, SLO e budget di errore per guidare i miglioramenti dell'affidabilità e informare le decisioni ingegneristiche. * Partecipare alle attività di risposta agli incidenti, condurre analisi post-mortem senza attribuire colpe e implementare misure preventive per migliorare l'affidabilità. * Collaborare con i team di sviluppo per migliorare la progettazione dei sistemi, le pratiche di sviluppo e l'eccellenza operativa. * Configurare e implementare aggiornamenti infrastrutturali su larga scala e sistemi di distribuzione ad alte prestazioni. * Contribuire alla pianificazione della capacità e all'ottimizzazione delle prestazioni per garantire che i sistemi soddisfino i requisiti aziendali. * Gestire più cluster ELK che ospitano centinaia di terabyte di dati di log, telemetria e APM.Competenze chiave
Richiesto
* Buona comprensione dei principi SRE, inclusi SLI, SLO, budget di errore e test di affidabilità. * Esperienza e profonda conoscenza di strumenti quali Prometheus, Datadog, ELK, Loki e Grafana. * Conoscenza degli strumenti di automazione (Ansible, Terraform) e dei linguaggi di scripting/programmazione (Python, Go, Perl/C++). * Ottime capacità di individuazione e risoluzione dei problemi in sistemi distribuiti, con la capacità di diagnosticare problemi di produzione complessi sotto pressione. * Esperienza con la visualizzazione, la creazione di report, i turni di reperibilità e le revisioni post-incidente. * Familiarità con Kubernetes e l'orchestrazione dei container.Vantaggioso
* Esperienza con immagini C/IDC e soluzioni di archiviazione (ad es. Zenko, Teams, OpenQA). * Amministrazione di sistemi Linux e Windows ed esperienza con le tecnologie cloud (AWS/Azure). * Comprensione dei concetti di rete, del bilanciamento del carico e delle architetture distribuite. * Conoscenza di A/UX (Unix SVR4, Linux/Unix), container (ad es. Docker), HOP (Spark). * Familiarità con i principi FinOps per comprendere e comunicare i costi effettivi delle nostre decisioni e per collaborare.Vantaggi
* Attrezzature moderne per l'ufficio nel campus OPDX, con facile accesso ai mezzi di trasporto e alle strutture. * Modello di lavoro ibrido * Pacchetto ferie di 25 giorni * Assicurazione sanitaria premium * Programma di indennità aziendali * Giorni di ferie aggiuntivi per anzianità di servizio e attività di volontariato * Indennità per la salute mentale * Ferie annuali * Opportunità di sviluppo professionale, inclusi tech talk interni * Ambiente di lavoro flessibile e coinvolgimento nella comunità dei dipendenti di Man Group.Dettagli sul lavoro