Mettez en œuvre le contrôle de version des ensembles de données via MLOps.

MLOps • DataOps • Versionnement des données

Vous obtenez des résultats différents d’une semaine à l’autre — et personne n’arrive à répondre clairement : « avec quels données exactement ce modèle a été entraîné ? »

Question

Pourquoi un modèle performant en test se dégrade en production, alors que « le code n’a presque pas changé » ?

Réponse

Très souvent, la cause n’est pas l’algorithme : c’est la traçabilité. Sans contrôle de version des datasets (et des transformations), vous ne pouvez ni reproduire un entraînement, ni auditer les changements, ni faire un rollback serein.

Demander un diagnostic par email Voir l’approche d’intégration (production-ready)

Reproductibilité réelle

Rejouer entraînement/validation avec la même version de données, les mêmes transformations et les mêmes paramètres.

Audit & conformité (sans stress)

Savoir qui a changé quoi, quand, pourquoi — et revenir à une version stable en quelques minutes.

Moins de coût, plus de vitesse

Snapshots, cache, déduplication et rétention : moins de reprocessing, moins d’incidents silencieux.

Quand données, code et modèles n’ont pas un historique commun, l’équipe passe son temps à « deviner » ce qui a changé.

Qu’est-ce que le contrôle de version des datasets (et ce que ce n’est pas)

Le contrôle de version des ensembles de données (ou data versioning) consiste à créer des versions traçables de vos datasets — avec historique, identifiant immuable (hash / tag), contexte, responsable et lien vers les transformations — afin de pouvoir :

Reproduire un résultat (entraîner à nouveau avec exactement la même version de données)
Auditer ce qui a changé (et pourquoi)
Revenir en arrière (rollback) quand une version dégrade un modèle ou un KPI métier

Idée clé : en MLOps, versionner uniquement le code ne suffit pas. Vous devez pouvoir relier version des données → version des transformations → run d’entraînement → version du modèle → déploiement.

Ce que ce n’est pas

« final_final_v3.csv » dans un dossier partagé : ça ne répond pas à “quelle version exacte a été utilisée ?”
Des backups : utiles, mais sans contexte, sans diff, sans lien vers le pipeline
Mettre des datasets volumineux dans Git : Git n’est pas fait pour ça (on versionne les pointeurs/métadonnées, pas les téraoctets)

Pourquoi c’est critique en production (MLOps)

Data drift : le dataset “d’aujourd’hui” n’est plus celui de la semaine passée.
Collaboration multi-équipes : plusieurs pipelines, plusieurs consommateurs, mêmes sources… sans règles, le chaos est rapide.
Debug et incidents : sans traçabilité, chaque anomalie devient une chasse au trésor.
Confiance & conformité : quand on vous demande “prouvez ce qui a été utilisé”, il faut des preuves, pas des souvenirs.

Que faut-il versionner (dans la vraie vie) pour être reproductible

Dans un projet réel, “le dataset” n’est pas un fichier isolé : c’est une chaîne raw → curé → features → entraînement, avec schémas, règles qualité, labels et transformations. La question utile est : qu’est-ce qui définit une version exploitable ?

Checklist minimum viable (à copier)

Données brutes (raw) immuables : extractions/partitions avec identifiant + date + provenance.
Données curées : nettoyage + règles qualité + logs (ce qui a été rejeté, corrigé, imputé).
Features & labels : ce que le modèle “voit” + la vérité terrain (quand elle existe).
Schéma / contrats de données : colonnes, types, clés, règles de nulls, limites acceptables.
Transformations : code ET paramètres (SQL/dbt/notebooks/pipelines).
Environnement : image Docker, versions de librairies, configs d’exécution.
Artefacts d’entraînement : métriques, hyperparamètres, seed, rapport d’évaluation.
Lignage : lien clair données → run → modèle → déploiement.

Démarrage rapide : si vous ne pouvez pas tout versionner dès le début, figez au minimum train/validation (snapshots immuables) et imposez l’enregistrement automatique de dataset_version à chaque exécution (entraînement + déploiement).

Data lake gouverné : snapshots, traçabilité et versionnement des données pour MLOps — Le versionnement fonctionne mieux quand les données sont gérées comme un système : accès, logs, rétention et traçabilité.

Approches & outils de versionnement des données (comment choisir sans se tromper)

Il n’existe pas “un outil magique” : le bon choix dépend de votre réalité (GB vs TB/PB), de l’architecture (fichiers vs tables), du nombre d’équipes, et du besoin principal (reproductibilité, audit, rollback, gouvernance, coût).

DVC : versionnement Git-like pour projets ML (dépôt + storage)

Idéal quand votre équipe travaille déjà “projet par projet” (data science / ML engineering) et stocke les datasets dans un stockage externe (S3/Azure/GCS/on-prem). Le dépôt garde les métadonnées, le stockage garde les données.

lakeFS : branches/commits/rollback sur un data lake (object storage)

Pertinent pour un data lake partagé avec plusieurs consommateurs et pipelines. Vous isolez des changements via branches, vous validez, puis vous mergez — avec rollback possible.

Delta Lake / Apache Iceberg / Hudi : “time travel” sur des tables lakehouse

Si votre monde est structuré en tables, ces formats offrent des versions/snapshots (audits, retour dans le temps). Attention : la rétention (vacuum/expiration) doit être pensée pour conserver l’historique utile sans exploser les coûts.

Ce que ces outils ne remplacent pas (mais doivent compléter)

Le suivi d’expériences & registre de modèles (ex. MLflow / plateformes MLOps) : pour versionner les modèles et relier les runs.
Les tests de qualité des données : schéma, duplicats, ranges, dérives, cohérence.
La gouvernance : rôles, accès, logs, rétention, validation, documentation “prête pour audit”.
La gestion des features (si besoin) : quand plusieurs modèles réutilisent les mêmes variables en entraînement et en serving.

Règle simple pour décider (sans sur-architecture)

Si vous êtes en mode repo ML + stockage : commencez souvent par DVC (adoption rapide).
Si vous êtes en mode data lake partagé + multi-pipelines : regardez lakeFS (gouvernance et isolation).
Si vous êtes déjà en lakehouse tables : exploitez Delta/Iceberg/Hudi et formalisez la rétention.
Dans beaucoup d’organisations : une combinaison est normale (ex. outil data lake + tracking des runs + registre de modèles).

Workflow recommandé : données → entraînement → déploiement → audit

Un workflow MLOps solide crée une chaîne unique de preuves. Quand un KPI baisse, vous devez pouvoir répondre vite : “cette version du modèle vient de cette version de données (et de ce code)”.

1) Ingestion + tests de données

Contrôles automatiques (schéma, ranges, duplicats, nulls, cohérence). Si un test critique échoue : stop.
2) Snapshot / commit immuable

Figer la version du dataset d’entraînement/validation (tag) pour garantir qu’on peut rejouer.
3) Entraînement avec traçabilité

Enregistrer dataset_version, commit de code, paramètres, seed, métriques et rapport d’évaluation.
4) Registre de modèles

Publier la version du modèle avec métadonnées (données + code + performances + validations).
5) Déploiement avec garde-fous

Approvals, canary si nécessaire, rollback rapide, logs d’inférences, seuils et escalade.
6) Observabilité

Monitoring : dérive des données, qualité, performance modèle, latence, coûts, KPI métier.
7) Gouvernance & rétention

Politiques de conservation, accès (RBAC), logs, audits, revue périodique des versions “à conserver”.

Exemple simple de “preuve” à enregistrer à chaque run

Objectif : que chaque entraînement et chaque déploiement soit relié à une version de données immuable.

{
  "run_id": "mlrun_2026_01_14_001",
  "dataset_version": "train-2026-01-14",
  "dataset_uri": "s3://data-lake/ml/train/snapshot/train-2026-01-14/",
  "code_commit": "abc1234",
  "features_spec": "features-v7",
  "seed": 42,
  "metrics": {
    "auc": 0.91,
    "f1": 0.84
  },
  "model_version": "model-7",
  "approved_by": "ml-owner",
  "approved_at": "2026-01-14T10:15:00Z"
}

Plan de mise en œuvre : diagnostic → PoC → pilote → production

La méthode la plus sûre est incrémentale. Au lieu d’installer un outil “et d’espérer”, vous avancez par étapes avec des livrables clairs, des critères de réussite et une montée en maturité.

Étape 1 — Diagnostic (traçabilité actuelle + risques)

Cartographie des sources, transformations et consommateurs. Où la dérive apparaît ? Où les versions se perdent ? Définition d’une “version” et des artefacts obligatoires.
Étape 2 — PoC ciblé (minimum viable qui prouve la valeur)

Un pipeline, un dataset d’entraînement, un mécanisme de snapshot + enregistrement automatique de dataset_version. Objectif : reproduire et rollback de façon démontrable.
Étape 3 — Pilote (CI/CD + qualité + gouvernance)

Ajout des tests data, intégration pipeline, conventions de nommage, règles d’accès, rétention, documentation. Mise en place des validations (approbations) selon le niveau de risque.
Étape 4 — Production (observabilité + routine d’exploitation)

Monitoring dérive/qualité/performance, alertes, runbooks, audits, revue des versions conservées, et amélioration continue.

KPIs : comment prouver que le versionnement “fonctionne”

Un bon système de versionnement n’est pas une bureaucratie de plus : c’est un accélérateur. Les KPIs ci-dessous transforment une pratique “tech” en impact mesurable.

Temps pour reproduire un résultat : “quelle version, comment rejouer, quel run ?”
Temps pour rollback : revenir à une version stable du dataset/modèle, sans improvisation.
Incidents liés aux données : erreurs silencieuses, incohérences, dérive non détectée.
Coût de reprocessing : réduction des recalculs grâce à snapshots, cache et déduplication.
Cycle time : vitesse d’itération (de l’idée à une version déployable et auditée).

Salle de contrôle et KPI : observabilité, audit et gouvernance du versionnement des données en MLOps — En production, “versionner” sans observabilité devient de la paperasse. Avec KPIs et alertes, ça devient de la décision rapide.

Erreurs fréquentes (et comment les éviter)

1) Versionner uniquement “le fichier final”

Si vous ne figez que la sortie finale, vous perdez le chemin : raw, règles, exceptions, transformations. Solution : snapshots par couche + logs de validation + version de transformation.

2) Stocker les gros datasets dans Git

Git est conçu pour le code (texte), pas pour des téraoctets. Solution : données dans un stockage adapté, et dans Git : métadonnées/pointeurs/manifestes.

3) Oublier la politique de rétention

“Tout garder pour toujours” coûte cher et n’est pas toujours utile. Solution : rétention par criticité (expérimental vs production), expiration, archivage.

4) Ne pas relier explicitement données ↔ modèle

Avoir des versions séparées ne sert à rien si vous ne pouvez pas prouver le lien. Solution : imposer l’enregistrement automatique (dataset_version + code_commit + run_id) à chaque entraînement/déploiement.

5) Négliger accès & données sensibles (RGPD)

Versionner ne doit pas exposer. Solution : RBAC, séparation des environnements, logs, minimisation, masquage/anonymisation si nécessaire, règles d’usage claires.

Besoin d’une mise en place “propre” (traçable, mesurable, rollback possible) ?

Chez Bastelia, on vous aide à mettre en place un contrôle de version des datasets adapté à votre stack (data lake/lakehouse, pipelines, outillage MLOps) — avec une approche orientée production : preuves, garde-fous, KPIs, gouvernance.

Ce que vous obtenez

Architecture cible, conventions de version, intégration au pipeline, tests de données, politique de rétention, traçabilité run → modèle → déploiement, et documentation prête pour audit.

Écrire à info@bastelia.com Accéder à la page contact

FAQ sur le contrôle de version des datasets en MLOps

Qu’est-ce que le versionnement des données (data versioning) et à quoi ça sert ?

Le versionnement des données consiste à créer des versions traçables d’un ensemble de données (sources, transformations, dataset d’entraînement) afin de pouvoir reproduire un résultat, auditer les changements, et revenir à une version stable (rollback) si un modèle se dégrade.

Git suffit-il pour versionner un dataset ?

Git est excellent pour le code et les fichiers texte, mais il n’est pas conçu pour stocker de gros datasets. En pratique, on garde dans Git des métadonnées (pointeurs, hashes, manifestes) et on stocke les données dans un système adapté (object storage, lakehouse, data lake) avec un mécanisme de snapshots/versions.

Faut-il versionner les données brutes, les features et les labels ?

Idéalement, oui : données brutes (raw) immuables, données curées, spécifications de features, et labels. Si vous devez commencer petit, figez au minimum les datasets d’entraînement/validation et enregistrez automatiquement l’identifiant de version à chaque run.

DVC ou lakeFS : comment choisir ?

DVC est souvent un bon point de départ pour des équipes data science qui travaillent en mode dépôt Git + stockage distant. lakeFS est particulièrement utile quand vous avez un data lake partagé (object storage) avec plusieurs pipelines et un besoin de branches/commits/rollback en conditions multi-équipes.

Comment éviter que le versionnement fasse exploser les coûts de stockage ?

Utilisez des approches basées sur snapshots, déduplication et cache, et mettez en place des politiques de rétention (expérience vs production). L’objectif est de conserver un historique utile (audit, reproduction) sans dupliquer inutilement des téraoctets.

Comment intégrer le contrôle de version des données à CI/CD et à MLOps ?

Automatisez les tests de qualité des données, créez un snapshot/version dans le pipeline, puis imposez que chaque entraînement et chaque déploiement enregistrent l’ID de version du dataset (et du code) dans votre outil de suivi d’expériences et votre registre de modèles.

Quelles précautions pour le RGPD et les données sensibles ?

Le versionnement doit aller avec la gouvernance : contrôle d’accès (RBAC), séparation des environnements, logs, minimisation, et règles de masquage/anonymisation si besoin. Versionner ne veut pas dire exposer : cela permet surtout de prouver quoi a été utilisé et quand.

Peut-on mettre en place un minimum viable sans refondre tout le data lake ?

Oui. Commencez par un périmètre limité : un pipeline, un dataset d’entraînement, un mécanisme de snapshot, et une traçabilité automatique (dataset_version + code_commit + run_id). Ensuite, étendez progressivement avec tests, rétention, validations et observabilité.