Fine‑tuning vs prompt engineering : comment choisir (sans sur‑investir) ?
Le vrai enjeu, ce n’est pas de “faire de l’IA”. C’est d’obtenir des réponses fiables, un format constant, un coût maîtrisé et une mise à l’échelle qui tient dans la durée. Ce guide vous donne un cadre concret pour décider quand optimiser vos prompts, quand adapter un modèle, et quand brancher vos données.
- Définitions simples (sans jargon)
- Comparatif + cadre de décision
- Exemples B2B (support, ops, ventes)
- FAQ + checklist de déploiement
Définitions simples : fine‑tuning, prompt engineering… et la RAG
Beaucoup de projets d’IA générative se bloquent parce qu’on mélange 3 leviers qui n’adressent pas le même problème. Avant de choisir, clarifions les termes en langage clair.
Concevoir des instructions (prompts) pour obtenir une sortie plus fiable :
ton, format, étapes de raisonnement, contraintes, exemples, critères de qualité.
Vous ne changez pas le modèle : vous changez la façon de lui parler.
Ré‑entraîner un modèle sur des exemples (entrées → sorties attendues) afin de
stabiliser un comportement sur une tâche ou un style donné.
C’est utile quand vous voulez des résultats constants et répétables à grande échelle.
Connecter le modèle à vos contenus (documents, base de connaissances, CRM, procédures)
et lui fournir, à chaque question, le contexte pertinent.
Idéal quand “il faut répondre juste” avec des informations internes, à jour et auditables.
Astuce : dans la majorité des cas en entreprise, vous n’avez pas besoin de “choisir une seule option”. On obtient souvent les meilleurs résultats avec une approche hybride (prompts + données + garde‑fous), et du fine‑tuning uniquement quand la valeur est claire.
Comparatif : prompt engineering, RAG et fine‑tuning (ce que chaque levier résout)
Pour décider vite, pensez “problème → levier”. Le tableau ci‑dessous met tout à plat : objectif, vitesse, données, coûts, et niveau de stabilité.
| Critère | Prompt engineering | RAG | Fine‑tuning |
|---|---|---|---|
| Le problème typique | Réponse trop vague / format instable / ton pas aligné | Le modèle “ne sait pas” vos infos internes ou elles changent souvent | Vous voulez un comportement très constant sur une tâche précise |
| Ce que ça change | Les instructions et le contexte donné au modèle | Le contexte (documents, données) fourni à l’inférence | Le modèle (apprend à imiter vos sorties attendues) |
| Vitesse | Très rapide (itératif) | Rapide à moyen (indexation + branchements) | Plus lent (dataset + entraînement + tests) |
| Données nécessaires | Peu (surtout de bons exemples et critères) | Documents / bases structurées + gouvernance d’accès | Exemples propres (entrées → sorties) + validation qualité |
| Coût & maintenance | Faible, mais demande une discipline de prompts | Coût d’infra (recherche) + maintenance des sources | Coût plus élevé + versioning + re‑training si ça dérive |
| Meilleur cas d’usage | Création, aide à la rédaction, assistants interactifs, sorties structurées | Support client, procédures, conformité, knowledge base, documentation | Classification à grande échelle, style de marque ultra stable, règles métier répétitives |
Si votre objectif est d’obtenir des réponses fiables et vérifiables sur votre entreprise, pensez “données + contrôle” avant “entraînement”. Le fine‑tuning est puissant, mais ce n’est pas le premier réflexe dans un projet orienté ROI.
Quand le prompt engineering suffit (et comment le rendre robuste)
Le prompt engineering est le meilleur point de départ quand vous devez prototyper vite, apprendre, et améliorer progressivement. C’est aussi la meilleure option quand vous ne voulez pas gérer de pipeline d’entraînement.
Utilisez-le si vous cherchez :
- Des itérations rapides (tester un cas d’usage en quelques heures/jours).
- Un format de sortie plus stable (JSON, tableau, sections, checklists, “sources utilisées”).
- Un ton de marque (niveau de formalité, concision, style “B2B”, vocabulaire préféré).
- Une logique de réponse (étapes, hypothèses, critères d’acceptation, limites, “je ne sais pas”).
- Des garde‑fous (ce qui est autorisé / interdit, gestion du doute, règles de conformité).
Ses limites (les signaux d’alerte)
- Prompts qui deviennent énormes (vous “empilez” des règles, ça casse à la moindre variation).
- Variabilité non acceptable (même demande → réponses différentes, difficile à industrialiser).
- Coût à l’inférence qui grimpe (trop de contexte, trop d’exemples dans chaque requête).
- Besoin d’un comportement systématique (ex. classification, extraction, normalisation) sur des milliers d’items.
Si vous reconnaissez ces signaux, vous n’êtes pas “mauvais en prompts” : c’est souvent le moment d’ajouter un autre levier (données, outillage, ou fine‑tuning).
Quand le fine‑tuning devient pertinent (et rentable)
Le fine‑tuning est pertinent lorsque vous avez déjà clarifié la tâche, les critères de qualité, et que vous voulez un comportement stable à grande échelle, sans devoir répéter 200 lignes d’instructions à chaque requête.
Cas où le fine‑tuning apporte un vrai avantage :
- Sorties répétitives et structurées : classification, routage, extraction, normalisation, résumés au format fixe.
- Style et vocabulaire ultra standardisés (ex. communications sensibles, réponses support “gold standard”).
- Réduction de la variabilité quand la cohérence est plus importante que la créativité.
- Optimisation coût/latence : moins de tokens de contexte par requête (prompts plus courts).
- Industrialisation : même règle métier appliquée à grande échelle, avec un modèle dédié.
Quand ce n’est pas le bon levier :
- Quand vous voulez simplement que l’IA “connaisse” vos documents : préférez RAG (plus simple à mettre à jour).
- Quand votre tâche n’est pas définie (pas de “bonne réponse” stable) : commencez par prototyper et définir les critères.
- Quand vous n’avez pas d’exemples propres : sans dataset de qualité, le fine‑tuning peut empirer les résultats.
Cadre de décision : 7 questions pour choisir la bonne approche
Utilisez cette grille comme un “mini audit”. Elle vous évite les projets coûteux qui partent trop tôt sur de l’entraînement, alors que le besoin est en réalité un sujet de contexte, format ou process.
-
Votre problème est-il la connaissance ?
Si l’IA doit répondre sur des procédures internes, des contrats, des fiches produits, des tickets… → RAG en priorité. -
Avez-vous une “bonne réponse” mesurable ?
Si oui (gold standard), le fine‑tuning est envisageable. Sinon, commencez par prompts + tests. -
Le format doit-il être strict (JSON, champs, règles) ?
D’abord : sorties structurées + garde‑fous. Puis fine‑tuning si vous voulez une constance très forte. -
Le volume est-il élevé (milliers/jour) ?
À volume important, un fine‑tuning peut réduire coût/latence… si la tâche est stable et que le dataset est prêt. -
Le contenu change-t-il souvent ?
Si oui : RAG + gouvernance. Fine‑tuning = plus lent à mettre à jour. -
Quel est votre niveau d’exigence “zéro erreur” ?
Plus c’est critique, plus il faut : citations/sources, non‑couverture assumée, validation humaine, logs. -
Êtes-vous prêts à opérer le système ?
Fine‑tuning implique versioning, monitoring, ré‑évaluation et parfois re‑training. Si vous ne voulez pas cette charge → restez sur prompts + données.
• Besoin de style / format / consignes → prompt engineering
• Besoin d’infos internes à jour → RAG
• Besoin de constance à grande échelle → fine‑tuning (si dataset prêt)
Exemples concrets : quoi choisir selon les cas d’usage
Voici des situations fréquentes en entreprise, avec une approche recommandée (et une raison simple). Le but : aller droit à une solution qui marche… et qui reste maintenable.
1) Support client / centre d’aide
- Objectif : répondre juste avec la politique SAV, procédures, délais, exceptions.
- Approche : RAG + prompts (réponses sourcées, droits d’accès, “je ne sais pas”).
- Fine‑tuning ? seulement si vous voulez un style 100% constant ou des classes de tickets très stables.
2) Qualification de leads / analyse d’emails
- Objectif : classer, résumer, extraire des champs (budget, besoin, urgence).
- Approche : prompts avec sortie structurée → puis fine‑tuning si le volume est élevé et la taxonomie stable.
3) Génération de contenus marketing (B2B)
- Objectif : produire plus vite sans perdre la qualité et la cohérence.
- Approche : prompt engineering (brief, ton, preuves, structure) + bibliothèque d’exemples.
- Fine‑tuning ? utile si vous avez des centaines de contenus “modèles” et un style de marque très codifié.
4) Conformité / documents sensibles
- Objectif : analyser, résumer, identifier des points de vigilance.
- Approche : RAG sur votre corpus + prompts stricts (citations, limites, validation).
- Fine‑tuning ? plutôt pour des tâches répétitives (catégorisation, extraction de clauses) avec règles stables.
Méthodes qui fonctionnent : prompt engineering solide + fine‑tuning propre
Dans la pratique, la performance vient rarement d’un “prompt magique”. Elle vient d’un système : objectif clair, exemples, tests, garde‑fous et amélioration continue.
Un prompt robuste (template prêt à l’emploi)
Copiez/collez ce modèle et adaptez les blocs. Vous obtenez immédiatement des réponses plus constantes et plus faciles à évaluer.
[RÔLE]
Tu es {rôle}. Tu réponds comme un expert {domaine}. Ton ton est {ton}.
[OBJECTIF]
But : {objectif mesurable}. Le résultat doit être exploitable par {équipe}.
[CONTEXTE]
Voici les informations disponibles :
- {contexte 1}
- {contexte 2}
Contraintes : {RGPD / confidentialité / règles}
[FORMAT DE SORTIE (OBLIGATOIRE)]
Réponds en :
1) Résumé (2-4 lignes)
2) Détails (puces)
3) Prochaine action recommandée
4) Risques / inconnues + questions à poser
[CRITÈRES DE QUALITÉ]
- Si une info manque : dis-le clairement et propose une question.
- N’invente pas. Si incertain : indique le niveau de confiance.
- Respecte le format ci-dessus, sans ajouter de sections.
[EXEMPLE]
Entrée : ...
Sortie attendue : ...
Les 6 “patterns” qui améliorent le plus la qualité
- Contraintes explicites : longueur, ton, interdits, audience, niveau de détail.
- Sortie structurée : sections fixes, listes, JSON (si besoin).
- Exemples (few-shot) : 1 à 3 paires entrée → sortie suffisent souvent.
- Critères d’échec : quoi faire si info manquante, ambiguë ou confidentielle.
- Contrôle qualité : “relis et vérifie la cohérence”, “liste les hypothèses”.
- Versioning : nommez vos prompts (v1, v2…) pour itérer sans vous perdre.
Checklist fine‑tuning : ce qu’il faut vraiment préparer
- Dataset propre : exemples représentatifs, sans données sensibles non autorisées, format homogène.
- Gold standard : ce qui est “bon” doit être validé (sinon le modèle apprendra vos incohérences).
- Jeu de test séparé : évaluer avant/après, et éviter de “sur-apprendre” le dataset.
- Métriques : exactitude, taux de non‑couverture, conformité au format, satisfaction utilisateurs.
- Plan de maintenance : quand ré‑entraîner ? comment versionner ? qui valide ?
Bon réflexe : avant de fine‑tuner, assurez-vous que la tâche n’est pas simplement un besoin de données (RAG) ou de format (prompts + sorties structurées).
Évaluation, sécurité et mise en production : ce qui fait la différence
Les meilleurs résultats viennent d’un système “piloté” : on mesure la qualité, on gère les coûts, on trace ce qui se passe, et on met des garde‑fous sur les cas sensibles.
Évaluer sans se mentir
- Échantillon représentatif (cas faciles + cas limites).
- Critères objectifs (format respecté, champs extraits, citations, règles).
- Comparaison A/B (prompt v2 vs v3, ou modèle finetuné vs baseline).
- Journalisation (inputs, outputs, prompts, versions, décision finale).
Sécurité & confidentialité (indispensable en B2B)
- Minimisation : ne mettez pas plus de données que nécessaire dans le prompt.
- Accès : en RAG, gérez les droits comme dans vos outils (équipes, rôles, dossiers).
- Redaction : anonymiser / masquer les données sensibles quand possible.
- Validation : pour les actions à risque, imposez une validation humaine.
Une règle simple
Si une réponse peut avoir un impact légal, financier ou opérationnel, il faut : citations/sources, traces, et une stratégie “je ne sais pas” plutôt que d’inventer.
Besoin d’un avis clair sur votre cas ? (sans perdre 3 mois)
Chez Bastelia, on aide les équipes B2B à passer de l’idée à une solution utile : cadrage, prototype, industrialisation, et mesure. Dites-nous : votre objectif, 5 exemples d’entrées, et ce que vous considérez comme une “bonne réponse”.
