Stockholm

HPC-ingenieur

Geplaatst op donderdag 5 februari 2026

IT
Stockholm
Tot £ 0.00 per jaar
Permanent

High-Performance Computing (HPC) Engineer – (Stockholm, Zweden)

Overzicht

Onze snelgroeiende technologieklant is op zoek naar een ervaren professional. High-Performance Computing (HPC) Engineer Je helpt bij het ontwerpen, bouwen en beheren van grootschalige computerplatformen die veeleisende workloads ondersteunen (bijv. AI/ML, simulatie, rendering, analyses en onderzoek). Je werkt nauw samen met infrastructuur-, platform- en onderzoeks-/engineeringteams om betrouwbare systemen met een hoge doorvoer te leveren die sterke prestaties, automatisering en observeerbaarheid bieden.

Belangrijkste verantwoordelijkheden

  • Ontwerpen, implementeren en ondersteunen HPC-clusters (on-premise / colocatie / cloud-connected) met de nadruk op prestaties, veerkracht en schaalbaarheid.
  • Beheer en optimaliseer Linux-gebaseerde computeromgevingen (provisionering, patching, kernel-/stuurprogramma-optimalisatie, gebruikerstoegang, beveiliging).
  • Implementeren en onderhouden werkbelastingplanning en clusterbeheer (bijv. Slurm of een vergelijkbaar systeem), inclusief partities/wachtrijen, eerlijke verdelingsregels en verbeteringen in de efficiëntie van taken.
  • Support GPU-versneld Omgevingen (indien van toepassing): beheer van stuurprogramma's/toolkits, prestatieprofilering, probleemoplossing voor stabiliteitsproblemen.
  • Bouwen en onderhouden automatisering voor clusterlevenscyclusbewerkingen (IaC, configuratiebeheer, CI/CD-achtige bewerkingen).
  • Werk samen met netwerk- en opslagteams om te zorgen voor hoge doorvoersnelheden en lage latentie in de gehele infrastructuur.
  • Verantwoordelijk zijn voor incidentafhandeling en probleembeheer voor HPC-services; leiding geven aan oorzaakanalyses en preventieve verbeteringen.
  • Ontwikkel monitoring-, logging- en capaciteitsplanning om de doorvoer- en beschikbaarheidsdoelstellingen te behalen.
  • Zorg voor duidelijke documentatie (draaiboeken, architectuurdiagrammen, operationele standaarden) en draag bij aan continue verbetering.

Vereiste vaardigheden en ervaring

  • Ruime praktijkervaring als een HPC-engineer / Linux-systeemengineer / Infrastructuurengineer in prestatiekritische omgevingen.
  • Diepgaande kennis van Linux-administratie (systemd, basiskennis van netwerken, opslag, prestatieoptimalisatie, probleemoplossing).
  • Ervaring met het bedienen van HPC- of grootschalige computerplatformen, waaronder een of meer van de volgende:
    • Planners / clustermanagers (Slurm heeft de voorkeur; PBS, LSF, Kubernetes voor batchverwerking, enz.)
    • GPU-berekening (NVIDIA-stuurprogramma's/CUDA, NCCL-bewustzijn, profileringstools)
    • MPI en concepten van gedistribueerde computing (OpenMPI/MPICH-inzicht)
  • Uitstekende script-/automatiseringsvaardigheden (Bash, Python; plus Ansible/Terraform of vergelijkbaar).
  • Praktisch begrip van observeerbaarheid (metrieken, logboeken, tracering) en het gebruik van monitoringstacks om de betrouwbaarheid te verbeteren.
  • Goede kennis van opslag- en dataverplaatsingspatronen die worden gebruikt in HPC (parallelle bestandssystemen en/of concepten voor hoogwaardige gedeelde opslag).
  • Sterke communicatieve vaardigheden - in staat om samen te werken met platform-, netwerk-, opslag- en applicatieteams.

Wenselijk / Leuk om te hebben

  • ervaring met hogesnelheidsverbindingen (bijv. InfiniBand, RoCE) en het oplossen van problemen met netwerken met lage latentie.
  • ervaring met HPC in containers of hybride HPC-workloads (Apptainer/Singularity, Docker waar van toepassing).
  • Bekendheid met de beste beveiligingspraktijken in gedeelde computeromgevingen (minimale bevoegdheden, auditing, omgaan met geheimen).
  • Achtergrond in het ondersteunen van grootschalige AI/ML-infrastructuur (GPU-vlootbeheer, taakefficiëntie, capaciteitsoptimalisatie).

Locatie en werkmodel

  • Stockholm, Zweden (gevestigd in deze regio).
  • Werkend model: Hybride/op locatie afhankelijk van de operationele behoeften.

Hoe succes eruit ziet

  • Stabiele, krachtige clusters met meetbare verbeteringen in doorvoer, benutting en succespercentages van taken.
  • Sterke automatisering en herhaalbaarheid bij de inrichting, configuratie en het beheer.
  • Duidelijke operationele procedures (monitoring, waarschuwingen, draaiboeken) die de MTTR (Mean Time to Repair) verkorten en de betrouwbaarheid verbeteren.

Volgende stappen

  • Stuur mij alstublieft uw meest recente cv dat aansluit op deze functieomschrijving, samen met uw contactgegevens.

Rami James

Geadverteerd door:

Rami James
Hoofd Senior Consultant
LinkedIn

Solliciteer voor deze functie