High-Performance Computing (HPC) Engineer – (Stockholm, Zweden)
Overzicht
Onze snelgroeiende technologieklant is op zoek naar een ervaren professional. High-Performance Computing (HPC) Engineer Je helpt bij het ontwerpen, bouwen en beheren van grootschalige computerplatformen die veeleisende workloads ondersteunen (bijv. AI/ML, simulatie, rendering, analyses en onderzoek). Je werkt nauw samen met infrastructuur-, platform- en onderzoeks-/engineeringteams om betrouwbare systemen met een hoge doorvoer te leveren die sterke prestaties, automatisering en observeerbaarheid bieden.
Belangrijkste verantwoordelijkheden
- Ontwerpen, implementeren en ondersteunen HPC-clusters (on-premise / colocatie / cloud-connected) met de nadruk op prestaties, veerkracht en schaalbaarheid.
- Beheer en optimaliseer Linux-gebaseerde computeromgevingen (provisionering, patching, kernel-/stuurprogramma-optimalisatie, gebruikerstoegang, beveiliging).
- Implementeren en onderhouden werkbelastingplanning en clusterbeheer (bijv. Slurm of een vergelijkbaar systeem), inclusief partities/wachtrijen, eerlijke verdelingsregels en verbeteringen in de efficiëntie van taken.
- Support GPU-versneld Omgevingen (indien van toepassing): beheer van stuurprogramma's/toolkits, prestatieprofilering, probleemoplossing voor stabiliteitsproblemen.
- Bouwen en onderhouden automatisering voor clusterlevenscyclusbewerkingen (IaC, configuratiebeheer, CI/CD-achtige bewerkingen).
- Werk samen met netwerk- en opslagteams om te zorgen voor hoge doorvoersnelheden en lage latentie in de gehele infrastructuur.
- Verantwoordelijk zijn voor incidentafhandeling en probleembeheer voor HPC-services; leiding geven aan oorzaakanalyses en preventieve verbeteringen.
- Ontwikkel monitoring-, logging- en capaciteitsplanning om de doorvoer- en beschikbaarheidsdoelstellingen te behalen.
- Zorg voor duidelijke documentatie (draaiboeken, architectuurdiagrammen, operationele standaarden) en draag bij aan continue verbetering.
Vereiste vaardigheden en ervaring
- Ruime praktijkervaring als een HPC-engineer / Linux-systeemengineer / Infrastructuurengineer in prestatiekritische omgevingen.
- Diepgaande kennis van Linux-administratie (systemd, basiskennis van netwerken, opslag, prestatieoptimalisatie, probleemoplossing).
- Ervaring met het bedienen van HPC- of grootschalige computerplatformen, waaronder een of meer van de volgende:
- Planners / clustermanagers (Slurm heeft de voorkeur; PBS, LSF, Kubernetes voor batchverwerking, enz.)
- GPU-berekening (NVIDIA-stuurprogramma's/CUDA, NCCL-bewustzijn, profileringstools)
- MPI en concepten van gedistribueerde computing (OpenMPI/MPICH-inzicht)
- Uitstekende script-/automatiseringsvaardigheden (Bash, Python; plus Ansible/Terraform of vergelijkbaar).
- Praktisch begrip van observeerbaarheid (metrieken, logboeken, tracering) en het gebruik van monitoringstacks om de betrouwbaarheid te verbeteren.
- Goede kennis van opslag- en dataverplaatsingspatronen die worden gebruikt in HPC (parallelle bestandssystemen en/of concepten voor hoogwaardige gedeelde opslag).
- Sterke communicatieve vaardigheden - in staat om samen te werken met platform-, netwerk-, opslag- en applicatieteams.
Wenselijk / Leuk om te hebben
- ervaring met hogesnelheidsverbindingen (bijv. InfiniBand, RoCE) en het oplossen van problemen met netwerken met lage latentie.
- ervaring met HPC in containers of hybride HPC-workloads (Apptainer/Singularity, Docker waar van toepassing).
- Bekendheid met de beste beveiligingspraktijken in gedeelde computeromgevingen (minimale bevoegdheden, auditing, omgaan met geheimen).
- Achtergrond in het ondersteunen van grootschalige AI/ML-infrastructuur (GPU-vlootbeheer, taakefficiëntie, capaciteitsoptimalisatie).
Locatie en werkmodel
- Stockholm, Zweden (gevestigd in deze regio).
- Werkend model: Hybride/op locatie afhankelijk van de operationele behoeften.
Hoe succes eruit ziet
- Stabiele, krachtige clusters met meetbare verbeteringen in doorvoer, benutting en succespercentages van taken.
- Sterke automatisering en herhaalbaarheid bij de inrichting, configuratie en het beheer.
- Duidelijke operationele procedures (monitoring, waarschuwingen, draaiboeken) die de MTTR (Mean Time to Repair) verkorten en de betrouwbaarheid verbeteren.
Volgende stappen
- Stuur mij alstublieft uw meest recente cv dat aansluit op deze functieomschrijving, samen met uw contactgegevens.
