Senior DevOps Engineer – AI Platform / Kubernetes / AWS / GPU Infrastructure - CDI H/F
Description du poste
Dans le cadre d’un programme stratégique d’industrialisation de l’IA Générative à l’échelle Groupe, nous recherchons un Senior DevOps / Platform Engineer capable de concevoir, sécuriser et scaler les infrastructures supportant les plateformes Mistral AI et Prisme AI dans un environnement bancaire critique et fortement réglementé.
Le programme IA Gen vise à construire une plateforme souveraine d’IA générative et agentique capable de supporter des cas d’usage massifs, avec de fortes contraintes :
- haute disponibilité
- scalabilité GPU
- sécurité enterprise
- observabilité avancée
- conformité réglementaire
- optimisation des performances et des coûts
Enjeux techniques du programme
==================================
- Déploiement enterprise\-scale de plateformes LLM
- Orchestration de workloads IA intensifs CPU/GPU
- Industrialisation de pipelines MLOps / LLMOps
- Scalabilité Kubernetes multi\-environnements
- Observabilité temps réel des systèmes IA
- Sécurisation des infrastructures GenAI
- Déploiement hybride AWS \+ On\-Prem
- Automatisation complète des déploiements IA
- Optimisation inference serving \& consommation GPU
=======================
Infrastructure \& Platform Engineering
------------------------------------------
- Concevoir et maintenir des infrastructures cloud et on\-prem hautement disponibles pour les plateformes IA générative
- Déployer et administrer des clusters Kubernetes dédiés aux workloads IA et LLM
- Optimiser l’allocation des ressources :
+ GPU
+ mémoire
+ stockage
+ networking
- Gérer la scalabilité horizontale et verticale des plateformes IA
- Participer à l’architecture des plateformes de serving LLM et inference APIs
--------------------------------
- Construire et industrialiser des pipelines CI/CD pour :
+ APIs IA
+ applications agentiques
+ composants MLOps
- Automatiser les déploiements et rollback sécurisés
- Mettre en place des stratégies GitOps et Infrastructure as Code
- Garantir :
+ traçabilité
+ auditabilité
+ résilience des déploiements
Kubernetes / Container Platform
-----------------------------------
- Administrer des environnements Kubernetes complexes et distribués
- Déployer des architectures containerisées haute performance
- Optimiser :
+ autoscaling
+ GPU allocation
+ pod resiliency
+ service mesh
- Travailler sur :
+ Operators
+ ingress
+ networking policies
+ workload isolation
Observabilité / Monitoring / Reliability
--------------------------------------------
- Mettre en place des stacks d’observabilité avancées :
+ Grafana
+ ELK
+ OpenTelemetry
+ distributed tracing
- Définir des métriques de performance spécifiques aux workloads IA :
+ inference throughput
+ GPU utilization
+ token generation rate
+ uptime
- Implémenter :
+ incident response
+ anomaly detection
+ capacity planning
Sécurité \& Conformité
--------------------------
- Implémenter les standards sécurité enterprise :
+ RBAC
+ secrets management
+ encryption
+ network segmentation
- Garantir la conformité :
+ AI Act
+ auditabilité
+ traçabilité
- Participer à la sécurisation des plateformes GenAI et des flux de données sensibles
=========================
Cloud / Infra
-----------------
- AWS
- Hybrid Cloud
- On\-Prem Infrastructure
------------------------------
- Docker
- Kubernetes
- Helm
- Kustomize
-----------------------
- GitLab CI
- GitHub Actions
- ArgoCD
- Terraform
- Ansible
-------------------------------
- Prometheus
- Grafana
- ELK
- Loki
- OpenTelemetry
---------------------
- Mistral AI
- Prisme AI
- LLM serving infrastructure
- GPU workloads
- Inference APIs
Profil recherché
Profil recherché
====================
- 5\+ années d’expérience en DevOps / Platform Engineering / SRE
- Très forte expertise Kubernetes en production
- Expérience solide AWS \+ environnements hybrides
- Maîtrise des pipelines CI/CD et Infrastructure as Code
- Expérience sur des plateformes critiques à forte volumétrie
- Bonne compréhension des problématiques MLOps / LLMOps
- Expérience workloads GPU ou IA fortement appréciée
- Background banque / finance / environnement réglementé apprécié
==================
- Expérience plateformes IA Générative
- Déploiement de modèles LLM self\-hosted
- GPU scheduling / NVIDIA stack
- Kubernetes GPU operators
- Serving haute performance
- Infrastructure IA souveraine
- SRE / Reliability Engineering
- Sécurisation plateformes IA enterprise
Cette annonce provient de indeed. Voir l'annonce originale ↗