Desenvolupament responsable de LLM: documentació i avaluacions contínues.

IA responsable · LLMOps · Traçabilitat

Si estàs construint (o ja tens en producció) un model de llenguatge (LLM), un sistema RAG o un agent conversacional, el risc no és només “que s’equivoqui”: és no saber què ha passat, què ha canviat i com demostrar-ho quan apareix una incidència. La combinació que evita sorpreses és clara: documentació viva + avaluacions contínues.

En aquesta guia trobaràs un enfocament pràctic per definir què documentar, com avaluar i com monitoritzar els teus sistemes amb LLM perquè siguin robustos, auditables i escalables (sense frenar els equips).

Enginyer en un centre de dades interactuant amb visualitzacions hologràfiques: símbol de monitorització i traçabilitat en projectes amb LLM.
Idea clau: sense registres i proves recurrents, un LLM “funciona”… fins que canvia el context, el model, el prompt o les dades. La documentació i l’avaluació contínua converteixen el sistema en gestionable.

Què vol dir “desenvolupament responsable” en un LLM

Parlar de desenvolupament responsable de models de llenguatge no és un eslògan: és una manera de treballar perquè el sistema sigui traçable, explicable i millorable amb el pas del temps. En la pràctica, vol dir que cada decisió rellevant (dades, prompts, versions de model, filtres, regles, canvis d’arquitectura, etc.) queda registrada i que el rendiment no es dona per fet, sinó que es valida de manera recurrent.

1

Transparència operativa

Saber què fa el sistema, en quines condicions i amb quines limitacions.

Un LLM pot ser brillant en un context i inadequat en un altre. Documentar l’ús previst i els casos fora d’abast evita mals usos i falses expectatives.

2

Control del canvi

Cada canvi (model, prompt, fonts, regles) té impacte mesurat i possibilitat de rollback.

Un canvi petit de prompt o de retrieval pot alterar la qualitat, el to, el cost i fins i tot els riscos (p. ex., exposició de dades).

3

Millora contínua basada en dades

L’avaluació deixa de ser un “test final” i passa a ser un cicle: avaluar → monitoritzar → corregir.

L’objectiu no és perseguir la perfecció: és detectar regressions ràpid, reduir el risc i mantenir la qualitat quan canvia la realitat.


Què s’ha de documentar en un projecte amb LLM (sense paperassa)

La millor documentació és la que es pot mantenir. Per això, funciona molt bé pensar-la com un conjunt de “peces petites” (curtes i actualitzables) en lloc d’un PDF interminable. A continuació tens els blocs que normalment generen més valor (i més tranquil·litat).

Biblioteca jurídica moderna amb una figura hologràfica: metàfora de documentació, traçabilitat i compliment en sistemes amb LLM.
Documentar bé no és burocràcia: és convertir un sistema complex en un sistema que es pot auditar, mantenir i escalar.

1) Fitxa d’ús (què fa, per a qui i amb quines línies vermelles)

  • Objectiu del sistema i criteris d’èxit (qualitat, cost, temps, risc).
  • Usuaris i context d’ús (intern/extern, nivell d’expertesa, canals).
  • Fora d’abast (què NO ha de respondre, decidir o recomanar).
  • Requisits de seguretat i privacitat (dades sensibles, retenció, permisos).

2) Dades i coneixement (origen, permisos i qualitat)

En RAG o assistents amb base de coneixement, el “model” no és l’únic responsable: les fonts i la indexació decideixen gran part del resultat.

  • Inventari de fonts (CRM, ERP, Drive, Confluence, web, PDFs) i propietaris.
  • Permisos i accés (qui pot veure què) i estratègia d’anonimització si cal.
  • Qualitat: duplicats, informació obsoleta, contradiccions, versions, “single source of truth”.
  • Caducitat i refresc (quan i com es reindexa; què passa amb documents nous).

3) Prompting i configuració (per reproduir i millorar)

  • System prompt i instruccions clau (to, limitacions, format de sortida).
  • Plantilles de prompts (variables, exemples, llenguatge, restriccions).
  • Paràmetres (temperatura, top-p, límit de tokens) i justificació.
  • Polítiques de citació i “dir no ho sé” quan falta evidència.

4) Arquitectura i traçabilitat (què passa a cada pas)

  • Diagrama simple: entrada → retrieval → reranking → LLM → postprocessat → resposta.
  • Tracing (traça per request): prompt final, docs recuperats, latència, cost i versió.
  • Guardrails: filtres, validacions, detecció d’injecció de prompt, bloquejos per dades sensibles.
  • Fallback humà o flux alternatiu quan el sistema no és fiable.

Checklist ràpida (copiar i aplicar avui)

Si només poguessis fer una cosa aquesta setmana: crea una fitxa curta per versió i fes que cada canvi important (model / prompt / fonts) passi per una revisió mínima. Aquí tens una plantilla compacta, pensada per enganxar-la a Confluence/Notion/Jira.

# Fitxa de versió (LLM / RAG / Agent)
- Nom del sistema:
- Propòsit i casos d’ús:
- Fora d’abast (què NO fem):
- Usuaris i canals:
- Dades / Fonts (i propietaris):
- Permisos / dades sensibles:
- Model base i versió:
- Prompt(s) i configuració:
- Arquitectura (resum del flux):
- Guardrails i controls:
- Avaluació (suite + resultat):
- Monitorització (mètriques + alertes):
- Canvis respecte l’última versió:
- Riscos coneguts i mitigacions:
- Pla de rollback:
- Responsable i data:

Consell pràctic: si el teu equip canvia sovint prompts o fonts, separa la documentació en “Prompt Card” i “Data Card”. Així no has de reescriure-ho tot cada vegada.


Com muntar una avaluació contínua (offline + online) sense frenar els equips

En LLM, els tests “exact match” fallen perquè les respostes són no deterministes. Per això, la millor pràctica és combinar: avaluació automatitzada (ràpida i repetible) + revisió humana (en punts crítics) + monitorització (quan ja és en ús real).

A) Offline: suite de proves abans de desplegar canvis

L’objectiu és detectar regressions abans que arribin a l’usuari. Funciona molt bé tenir una “suite petita” per cada canvi i una “suite gran” programada (p. ex. diària o setmanal).

  • Golden set de preguntes reals (anonimitzades) i casos límit.
  • Qualitat: utilitat, completitud, format, to i coherència.
  • Factualitat: resposta suportada per evidència (citacions, fragments recuperats, fonts).
  • Seguretat: intents de jailbreak, prompt injection i extracció de dades.
  • Equitat: detectar biaixos en respostes quan hi ha col·lectius afectats.

B) Online: avaluació amb ús real (sense “trencar” l’experiència)

  • Feedback simple (útil/no útil) i motius predefinits (incomplet, incorrecte, to, etc.).
  • Mostreig per revisió humana en rutes crítiques (legal, finances, salut, decisions).
  • A/B controlat quan canvies prompt o model (comparar versions amb criteris clars).
  • Política de no-resposta quan falta evidència (millor “no ho sé” que inventar).

C) “LLM-as-a-judge” (amb criteri)

És útil per escalar l’avaluació (especialment en qualitat semàntica), però cal definir bé rubriques, exemples i criteris. En tasques sensibles, convé combinar-ho amb revisió humana.

  • Defineix una rúbrica (0–5) amb descripcions i exemples.
  • Mesura consistència (mateixa rúbrica, mateix criteri) abans de confiar-hi.
  • Fixa llindars per bloquejar desplegaments (gates) i per alertar regressions.

Monitorització en producció: mètriques, alertes i regressions

La monitorització en LLM no és només latència i errors d’API. El que diferencia un sistema “pilot” d’un sistema “operable” és poder contestar: quan baixa la qualitat, per què baixa i què hem de canviar (fonts, prompts, guardrails o model).

Centre de control futurista amb un assistent digital: símbol de governança, seguretat i observabilitat de sistemes amb LLM.
LLMOps no és una moda: és posar tracing, avaluació i monitorització al centre perquè el sistema sigui sostenible.

Mètriques que realment ajuden

  • Qualitat percebuda: % útil/no útil, motius, temes amb més fricció.
  • Factualitat: % respostes amb evidència / citació / “no ho sé” correcte.
  • RAG: recall de recuperació, documents buits, duplicats, contradiccions, “top sources”.
  • Cost: tokens per conversa, cost per resolució, desviacions sobtades.
  • Risc: intents d’injecció, contingut bloquejat, PII detectada, incidències.
  • Operació: latència, errors, timeouts, saturació, degradació per hores/pics.

Alertes i “gates” per evitar regressions

Una bona regla: si no ho pots detectar, no ho pots governar. Defineix llindars per bloquejar canvis quan hi ha regressions clares.

  • Gate de qualitat: si baixa X punts en la suite offline, no es desplega.
  • Gate de seguretat: si hi ha “escapades” de guardrails, revisió obligatòria.
  • Gate de cost: si el cost per conversa supera un llindar, s’atura el rollout.
  • Gate de dades: si les fonts canvien (nou repositori, reindexació gran), suite completa.

Governança, riscos i auditories: com arribar-hi amb calma

La governança no ha de ser un fre. Quan hi ha documentació modular + tracing + avaluació contínua, les converses amb seguretat, legal i direcció deixen de ser opinions i passen a ser evidència.

El “pack mínim” que facilita auditories

  • Historial de versions (model/prompt/fonts) i decisions associades.
  • Evidència d’avaluació (suites, resultats, llindars, incidències i correccions).
  • Controls de seguretat i privacitat (accés, redacció, retenció, proveïdors).
  • Procediment d’incidents i escalat (qui actua, en quin temps, amb quina informació).

Quan convé fer “red teaming” (i quan no cal dramatitzar)

Si el sistema pot impactar drets, diners, reputació o dades sensibles, cal provar-lo contra casos adversaris (jailbreaks, injecció de prompt, extracció d’informació, etc.). Si és un copilot intern acotat, potser n’hi ha prou amb una suite de seguretat pragmàtica i monitorització.


Com ho fem a Bastelia (i en què et podem ajudar)

Si vols passar de “prototip que funciona” a “sistema amb LLM que aguanta producció”, el camí acostuma a ser: definir estàndards, automatitzar proves, instrumentar tracing i tancar el loop amb millores iteratives. T’hi podem acompanyar des de la fase de diagnòstic fins a l’operació.

Vols un pla executable (sense fum) per documentar i avaluar el teu LLM?

Ens expliques el teu cas i et proposem un enfocament clar: què documentar primer, quines proves automatitzar, quines mètriques monitoritzar i quins llindars posar perquè el sistema no faci passos enrere.

Nota: aquesta guia és informativa i no substitueix assessorament legal. Treballem amb el teu equip per adaptar controls i documentació al teu context.


Preguntes freqüents

Quina diferència hi ha entre documentar un LLM i documentar una aplicació amb LLM (RAG o agents)?

Un LLM “nu” és només una peça. En una aplicació real, el comportament depèn del retrieval, les fonts, el prompting, els guardrails i la integració amb sistemes (CRM/ERP). Per això cal documentar el flux complet, no només el model.

Cada quant s’ha de reavaluar un sistema amb LLM?

Depèn del risc i del ritme de canvi. Com a norma: avaluació lleugera en cada canvi rellevant (prompt/model/fonts) i avaluació completa de manera periòdica (setmanal o mensual). Si el coneixement canvia sovint (RAG), afegeix reavaluació després de reindexacions grans.

Quines mètriques són més útils per detectar “al·lucinacions” i errors factuals?

En RAG, és clau mesurar la cobertura d’evidència (respostes amb citacions o suport en documents recuperats), els casos amb confiança baixa i les categories d’error. En prompts sense fonts, convé usar verificació per regles, rúbriques i revisió humana en temes crítics.

Com evito regressions quan el meu equip canvia prompts sovint?

Amb un registre de prompts (versions), una suite de proves amb gates (llindars) i un procés de canvi: proposta → prova offline → rollout controlat → monitorització → ajust. Això permet innovar ràpid sense perdre estabilitat.

Com gestiono dades sensibles i privacitat en projectes amb LLM?

Defineix per defecte el principi de mínim accés, redacció/anonimització quan cal, registres amb retenció limitada, i controls per evitar que el model “repeteixi” informació sensible. També és important documentar proveïdors, ubicació de dades i polítiques d’emmagatzematge.

Necessito LLMOps encara que el meu projecte sigui petit?

No cal un stack enorme. Però sí convé tenir el mínim: tracing, una suite de proves i un parell de mètriques de qualitat/cost. Amb això, el sistema ja es pot governar i millorar sense anar a cegues.

Desplaça cap amunt