Desmitificant el fine-tuning vs prompt engineering.

Q: Quina és la diferència entre fine‑tuning i prompt engineering?

El prompt engineering guia el model amb instruccions i exemples sense canviar-lo. El fine‑tuning reentrena el model amb dades per aprendre un comportament més estable: format, criteri, estil o decisions repetibles.

Q: Quantes dades necessito per fer fine‑tuning “bé”?

No hi ha un número universal. El factor clau és la qualitat i consistència dels exemples. És millor tenir menys exemples però ben etiquetats i amb criteri estable que no pas molts exemples contradictoris.

Q: El fine‑tuning millora la precisió en informació interna que canvia sovint?

Normalment no és la millor via. Si la informació canvia (polítiques, catàlegs, procediments), acostuma a ser millor aportar-la amb RAG. El fine‑tuning és més útil per a comportament (format/criteri) que per memoritzar actualitzacions constants.

Q: Es pot fer fine‑tuning amb dades sensibles?

Es pot plantejar, però requereix minimització de dades, control d’accés i gestió de riscos. En molts casos, es pot evitar exposar dades sensibles fent servir RAG amb permisos i filtratge.

Professionals treballant amb un robot humanoide i dashboards: personalització de models d’IA amb prompts i fine-tuning

Guia pràctica per a empreses

Si vols que un model de llenguatge (LLM) respongui millor, hi ha tres preguntes clau: li falta coneixement, li falta comportament o li falta procés? La resposta marca si et convé prompt engineering, RAG o fine‑tuning.

Parlem del teu cas per email Veure la consultoria i roadmap d’IA

Aprèn a triar entre prompts, RAG i fine‑tuning sense malgastar pressupost.
Entén què millora la qualitat (i què només “maquilla” el resultat).
Endú-te una checklist i exemples reals per aplicar-ho demà.

Objectiu: ajudar-te a prendre una decisió sòlida abans d’invertir temps, dades i integracions.

Contingut de l’article

Resum executiu: la decisió en 60 segons

Regla pràctica (que gairebé sempre funciona):
1) Comença amb prompt engineering (ràpid i barat) →
2) Si el problema és de “coneixement” (documents interns, informació canviant), afegeix RAG →
3) Reserva el fine‑tuning per quan necessites consistència, format i comportament de manera estable.

Prompt engineering
Ideal quan… vols iterar en dies, tens casos d’ús diversos, i el model “sap” prou però cal dirigir-lo millor (to, estructura, criteris, guardrails).

Senyal típic: el resultat millora molt quan dones exemples i restringeixes el format.
RAG
Ideal quan… necessites respostes basades en fonts internes (procediments, catàlegs, contractes, FAQs, helpdesk) i vols reduir al·lucinacions amb context real.

Senyal típic: el model s’inventa detalls perquè no té el document a mà.
Fine‑tuning
Ideal quan… necessites un comportament repetible: classificació estable, extracció amb criteris, redacció amb veu de marca constant, o sortides en un format molt específic.

Senyal típic: tens molts exemples bons i vols que el model els imiti de manera consistent.

Nota: en entorns B2B, la millor solució sovint és una combinació: prompts + RAG per a fets i actualitzacions, i fine‑tuning només per “com s’expressa i com decideix”.

El marc mental correcte: coneixement vs comportament vs procés

Moltes discussions de “fine‑tuning vs prompt engineering” fallen perquè es tracta tot com si fos el mateix problema. En realitat, quan un LLM dona una resposta dolenta, acostuma a ser per una d’aquestes tres causes:

1) Problema de coneixement

El model no té la informació correcta (o està desactualitzada): manuals interns, canvis de preu, polítiques, SOPs, productes, incidències recents, etc. Aquí, el que acostuma a funcionar millor és RAG (recuperar documents rellevants i posar-los com a context).

2) Problema de comportament

El model “sap” coses, però no segueix bé les regles: no respecta formats, no aplica criteris de decisió, canvia el to, o és inconsistent. Aquí guanyen força prompt engineering (regles + exemples + formats) i, si cal consistència a escala, fine‑tuning.

3) Problema de procés

El que falla és el flux: falta validació, manca d’eines (CRM/ERP/helpdesk), no hi ha control de qualitat, no hi ha avaluació, o no hi ha monitoratge. Aquí el que marca la diferència és la integració, l’observabilitat i les regles d’operació (no només el model).

Amb aquest marc, la decisió és més simple: no “tria una tècnica”; tria la palanca que resol el coll d’ampolla real.

Prompt engineering: guiar el model sense reentrenar

L’enginyeria de prompts consisteix a dissenyar instruccions perquè el model: (1) entengui el rol, (2) segueixi criteris, (3) treballi amb un format de sortida i (4) respecti limitacions. És la via més ràpida per millorar resultats quan encara estàs explorant.

Quan acostuma a ser suficient

Prototipatge i pilots (vols aprendre ràpid què funciona).
Casos d’ús variats (redacció, resum, ideació, classificació suau, etc.).
To i estructura: fer que el model respongui com vols (sense tocar pesos).
Regles de negoci que canvien sovint (més fàcil canviar prompt que reentrenar).

Flux digital amb icones de correu i automatització: prompts i workflows per operativitzar la IA — Un bon prompt no és “text bonic”: és una peça d’un flux. Quan connectes prompts amb dades, criteris i validació, el valor es multiplica.

Què diferencia un prompt “normal” d’un prompt que aguanta producció

Context mínim però suficient (evitar soroll i contradiccions).
Criteris explícits (què prioritzar, què evitar, què fer si falta informació).
Exemples (few‑shot) per ensenyar el format i el nivell de detall.
Sortida estructurada (JSON, llistes, taules simples) quan cal fiabilitat.
Regles de seguretat (dades sensibles, no inventar, demanar aclariments quan toca).

Exemple de plantilla de prompt (adaptable a gairebé qualsevol cas)

SYSTEM
Ets un assistent per a [àrea] dins d’una empresa. Prioritza exactitud, claredat i criteri.
Regles:
- Si falta informació crítica, fes 2-4 preguntes concretes abans de concloure.
- No inventis dades. Si no ho saps, digues-ho i proposa com obtenir-ho.
- Respecta el format de sortida.

CONTEXT
Objectiu de negoci: [KPI/impacte]
Públic: [rol]
Restriccions: [legal/privadesa/terminologia]

TASCA
1) Analitza el problema en 3-5 punts.
2) Dona una recomanació accionable.
3) Proposa riscos i com mitigar-los.

FORMAT DE SORTIDA
- Resum (3 línies)
- Recomanació (passos)
- Riscos i mitigacions
- Dubtes oberts (si n’hi ha)

Si amb una plantilla així ja obtens estabilitat i bons resultats, sovint no cal “pujar de nivell”. El problema és que, sense una avaluació mínima (10–30 casos de prova), és molt fàcil confondre “sembla millor” amb “és fiable”.

RAG: afegir coneixement actualitzat i verificable

El RAG (Retrieval‑Augmented Generation) resol una realitat molt habitual: el model pot ser molt bo escrivint, però no pot memoritzar el teu ERP, el teu helpdesk o els teus procediments interns (i menys si canvien). Amb RAG, abans de respondre, el sistema recupera fragments de documents rellevants i els posa com a context perquè el model respongui amb base real.

Quan el RAG és el teu “primer gran salt”

Assistents interns: RRHH, IT, compres, qualitat, operacions.
Atenció al client: polítiques, tarifes, catàlegs, garanties, incidències.
Legal/compliance: clàusules, normatives internes, procediments i evidències.
Vendes B2B: respostes consistents sobre producte, casos i objeccions basades en material oficial.

Persona en un data center amb fluxos hologràfics: arquitectura de dades per RAG i sistemes d’IA — RAG no és “posar documents i ja està”: és dades, permisos, indexació, qualitat i monitoratge per garantir que el model recupera el que toca.

Idea clau: el RAG canvia què sap el model en aquella resposta. El fine‑tuning canvia com es comporta el model sempre. Són palanques diferents, i per això sovint es combinen.

Si estàs valorant fine‑tuning perquè “el model s’equivoca en dades del negoci”, para un moment: moltes vegades el que falta no és entrenament, sinó context correcte i actual. Aquí el RAG acostuma a donar més ROI i menys risc.

Fine‑tuning: canviar el comportament del model (de forma persistent)

L’ajustament fi (fine‑tuning) és un entrenament addicional sobre un model preentrenat perquè aprengui un patró: com respondre, com classificar, com estructurar, quin estil mantenir, quines decisions prendre davant d’exemples similars. És potent, però té costos i responsabilitats: dades, validació, manteniment i govern.

Quan el fine‑tuning té sentit de veritat

Consistència extrema en format i criteri (per ex., extracció de camps, respostes en JSON, etiquetatge estable).
Alt volum de consultes on un prompt llarg és car i lent (un model afinat pot necessitar menys instrucció repetida).
Veu de marca i estil editorial amb molts exemples aprovats.
Classificació o rànquing amb etiquetes clares (p. ex., tipologies de tiquets, intents, prioritat).

Quan NO és la millor opció (i es veu sovint)

Vols que el model “sàpiga” documents interns que canvien: això és més RAG que fine‑tuning.
No tens exemples bons i consistents (o el criteri canvia segons qui revisa).
No tens temps per avaluar (sense avaluació, el fine‑tuning és una aposta a cegues).
El problema real és d’integració/procés (permisos, dades, fluxos, QA).

Biblioteca moderna amb holograma digital i llibres: coneixement corporatiu, semàntica i IA aplicada — En molts projectes, el repte no és “entrenar més”, sinó definir criteris i assegurar traçabilitat: què s’ha consultat, què s’ha decidit i per què.

Com és un bon dataset d’afinament (en llenguatge humà)

Un dataset útil no és “molts textos”. És molts exemples bons del que vols que el model faci: entrada → sortida esperada, amb criteri estable. Si avui un revisor ho accepta i demà un altre ho rebutja, primer cal alinear criteris.

Exemple (simplificat) d’exemples per a comportament/format:

ENTRADA:
"Classifica aquest tiquet: 'No puc accedir al compte després del canvi de contrasenya'"

SORTIDA ESPERADA (JSON):
{
  "categoria": "Accés",
  "subcategoria": "Contrasenya / login",
  "prioritat": "Alta",
  "accio_recomanada": "Verificar email, forçar reset, comprovar MFA",
  "pregunta_al_usuari": "Has rebut el codi MFA? Quin error exacte et surt?"
}

Si el teu objectiu és que el model respongui amb informació interna “exacta”, combina: RAG (fets) + fine‑tuning (format/criteri) + prompt (regles i límits).

Comparativa realista: què guanyes i què perds

Velocitat d’iteració
Prompts guanyen: canvis en minuts/hores. RAG és ràpid quan ja tens dades ordenades. Fine‑tuning requereix cicle de dades → entrenament → validació.
Precisió en informació interna i canviant
RAG guanya: pots actualitzar coneixement sense reentrenar. El fine‑tuning no és ideal per “memoritzar” canvis constants.
Consistència de format i criteri
Fine‑tuning pot aportar estabilitat quan necessites resultats repetibles. Amb prompts ho pots aconseguir fins a un punt, però pot ser fràgil si el cas s’allunya dels exemples.
Cost total
No és només “cost del model”: és implementació + ús + operació (monitoratge, QA, actualitzacions, govern). En B2B, sovint el cost gran està en dades i integració, no en el prompt.
Risc i govern
Com més “automatitzes decisions”, més necessites: criteris, evidències, control d’accés, traçabilitat i auditories. Sigui amb prompts, RAG o fine‑tuning, sense governança el risc puja.

Casos d’ús empresarials i recomanació d’enfocament

1) Agent d’atenció al client (respostes sobre producte, política, incidències)

Recomanació habitual: RAG + prompt engineering (i fine‑tuning només si cal un format o un criteri molt específic).

RAG per respondre basant-se en política i catàleg actuals.
Prompts per assegurar to, estructura, i “no inventar” quan falta informació.
Escalat: integració amb helpdesk i macros (accions), no només conversa.

Si això és el teu cas, fes una ullada a Agents conversacionals amb IA per a empreses.

2) Classificació de tiquets/correus i priorització

Recomanació habitual: comença amb prompts, valida criteri i categories; si hi ha volum i estabilitat, valora fine‑tuning.

Prompts per definir categories i tests ràpids amb casos reals.
Fine‑tuning quan les etiquetes estan consensuades i tens exemples aprovats.
Clau: avaluar errors per categoria (no només “mitjana”).

Si vols automatitzar fluxos end‑to‑end (assignació, notificacions, actualitzacions), mira Automatitzacions amb IA.

3) Extracció de dades (contractes, factures, parts, formularis)

Recomanació habitual: prompts + sortida estructurada; si necessites consistència “industrial”, valora fine‑tuning (i sempre QA).

Prompts per definir camps, regles i exemples d’extracció.
Fine‑tuning si el format i la casuística són molt repetitius i tens molts exemples correctes.
Important: validació automàtica + revisió humana en excepcions.

Si el repte és connectar-ho amb sistemes (ERP/CRM/helpdesk) i operar-ho, tens més context a Integració i implementació d’IA.

4) Contingut amb veu de marca (web, producte, comunicació)

Recomanació habitual: “voice kit” + prompts + QA editorial. Fine‑tuning només si tens molts exemples i necessites consistència extrema a escala.

Prompts amb guia d’estil (paraules a evitar, to, estructura, CTA).
Biblioteca d’exemples (bons/dolents) per alinear criteri intern.
Checklist d’edició humana (precisió, claims, coherència i SEO on‑page).

Checklist de decisió (per evitar errors cars)

Abans de decidir, respon aquestes preguntes. Si marques moltes “sí”, ja tens el camí bastant clar.

Si la majoria són “sí”, comença per prompt engineering

Puc definir el que vull amb regles i exemples clars.
El cas d’ús canvia sovint (o encara estic explorant).
Vull resultats ràpids i iterar sense tocar dades d’entrenament.
El problema principal és to, estructura, consistència moderada.

Si la majoria són “sí”, afegeix RAG

Cal respondre amb base en documents interns o informació canviant.
Necessito traçabilitat del que s’ha consultat.
La qualitat depèn de tenir “la font correcta” en el moment de la resposta.
Hi ha risc si el model s’inventa dades.

Si la majoria són “sí”, valora fine‑tuning

Tinc molts exemples bons, coherents i aprovats.
El format o criteri és estable i no canvia cada setmana.
Necessito consistència alta a escala (volum) i amb menys variabilitat.
Tinc (o vull tenir) un procés d’avaluació i monitoratge continu.

Truc pràctic: si no tens clar com mesurar “millor”, encara no és moment de fine‑tuning. Defineix un set de proves i un KPI de qualitat (precisió, cobertura, errors crítics, temps de resposta, cost per consulta).

Com ho portem a producció a Bastelia (sense perdre’s en teories)

Quan una empresa ens demana “què és millor: fine‑tuning o prompts?”, normalment fem el contrari: primer definim procés i KPI, després triem la tècnica mínima que dona el resultat.

Pas 1 — Diagnòstic (objectiu, dades i risc)

Aterrem el cas d’ús: qui ho usarà, en quin moment del flux, amb quines dades i quin error és “crític”. Això encaixa molt amb la nostra Consultoria i roadmap d’IA.

Pas 2 — Pilot amb avaluació (prompts / RAG) i criteris d’èxit

Construïm una primera versió que es pugui mesurar. Si amb prompts (i, si cal, RAG) ja s’arriba a l’objectiu, evitem complexitat innecessària.

Pas 3 — Integració i operació (on es guanya el ROI)

L’impacte ve quan connectes amb sistemes reals: CRM/ERP/helpdesk, permisos, logs i monitoratge. És el que cobrim a Integració i implementació d’IA i, si hi ha fluxos, a Automatitzacions amb IA.

Pas 4 — Fine‑tuning (només si aporta un salt real)

Si necessitem consistència superior (format, criteri, estil) i tenim dades bones, aleshores sí: plantegem un afinament amb validació i planificació de manteniment.

Vols una resposta clara pel teu cas?
Escriu-nos a info@bastelia.com i digues: sector, cas d’ús, volum, sistemes implicats i quin KPI vols millorar. Et respondrem amb el camí més eficient.

També pots veure opcions a Paquets i preus.

En entorns regulats o sensibles, és especialment important definir permisos, traçabilitat i govern. Si és el teu cas, val la pena revisar també el marc de compliment de la teva organització.

Preguntes freqüents

Quina és la diferència entre fine‑tuning i prompt engineering?

El prompt engineering guia el model amb instruccions i exemples sense canviar-lo. El fine‑tuning reentrena (parcialment) el model amb dades perquè aprengui un comportament més estable: format, criteri, estil o decisions repetibles.

Quan és millor començar amb prompt engineering?

Quan estàs explorant, quan el cas d’ús canvia sovint, o quan el model ja té capacitat però cal dirigir-lo: regles clares, exemples, i un format de sortida consistent.

Què és RAG i per què sovint és el pas previ al fine‑tuning?

RAG recupera fragments de documents rellevants i els aporta com a context perquè el model respongui basant-se en fonts reals i actualitzades. Sovint és el pas previ perquè molts “errors” són falta de context, no falta d’entrenament.

Quantes dades necessito per fer fine‑tuning “bé”?

No hi ha un número universal. El factor crític és la qualitat i consistència dels exemples. És millor tenir menys exemples però ben etiquetats i amb criteri estable que no pas molts exemples contradictoris.

El fine‑tuning millora la precisió en informació interna que canvia sovint?

Normalment, no és la millor via. Si la informació canvia (polítiques, catàlegs, procediments), acostuma a ser millor aportar-la amb RAG. El fine‑tuning és més útil per a comportament (format/criteri), no per memoritzar actualitzacions constants.

Es pot fer fine‑tuning amb dades sensibles?

Es pot plantejar, però requereix un enfocament seriós: minimització de dades, control d’accés, anonimització quan sigui possible, i definició de riscos. En molts casos, es pot evitar exposar dades sensibles fent servir RAG amb permisos i filtratge.

Com mesuro si prompts/RAG/fine‑tuning realment funcionen?

Amb un set de proves i mètriques: precisió per categoria, errors crítics, cobertura, temps de resposta, cost per consulta i feedback d’usuari. Sense mesura, és molt difícil separar “sensació” de “millora real”.