55-Contexto-Diseñar-gobernar-y-medir

# Diseñar, gobernar y medir el contexto: el método para que la IA funcione *como te han prometido* ![[Context-operating-model-COM.webp]] _(Tercera entrega de la serie sobre Context Engineering. Tienes las publicaciones relacionadas en la intro [46 Context Engineering](46-Context-engineering.md) y el siguiente [54 Los 6 niveles del contexto de la IA](54-Los-6-niveles-de-contexto.md))_ Recap rápido: > Cuando la IA falla, solemos culpar al prompt. Es cómodo. Es rápido. Pero casi nunca es el problema. El problema es el contexto. > > En las dos primeras entregas hablamos del cambio de foco, de *"saber preguntar"* a *"entender la información alrededor de una petición a la IA"* > > Si en los dos primeros números aprendíamos sobre el contexto como una estructura viva de información, hoy lo bajamos a tierra: cómo diseñarlo, gobernarlo y medirlo. ## El contexto como infraestructura Los seis niveles explican desde lo que el modelo trae de fábrica hasta tu último prompt. Entre medias están tus preferencias, la memoria y —clave— **los documentos y sistemas que tú aportas**. Ahí es donde una empresa tiene poder real. No puedes reentrenar el mundo, pero sí puedes **curar tus fuentes, respetar permisos, renovar lo obsoleto y exigir trazabilidad**. Es gestión de la información. La nueva gobernanza de datos en la era de la IA, que es algo más que orden y etiquetado. Diseñar contexto, en realidad, es **ingeniería de información aplicada al negocio**: seleccionar, estructurar, versionar, medir y gobernar. ## Un modelo operativo para pensar con IA: *Context Operating Model (COM)* Si la IA piensa con información, el modelo define cómo se la damos. Y si vamos a definir un nuevo modelo, habrá que darle un nombre. Máquina ha sugerido _Context Operating Model_ (COM), con cinco piezas. No es un marco teórico, es una lista de trabajo que cabe en una pizarra y se explica en 5 minutos (como toda buena idea) ### 1. Fuentes mínimas viables Empieza por lo esencial para una decisión concreta: el playbook de ventas vigente, el tarifario activo, las FAQs de soporte y un contrato tipo. Nada de “conectar todo”. Selección mata a volumen. Las fuentes empezar siendo *Fuentes Mínimas Viables* (FMV), e irse enriqueciendo a partir de ahí. Y si la fuente no está ligada a un proceso o KPI, es ruido. ### 2. Curación y formato Prefiere repositorios limpios y texto estructurado. Lo “bonito” en PDF suele ser opaco para el modelo; lo “claro” en Markdown se entiende a la primera. Piensa que cada vez que le das un PDF complejo a la IA, gasta la mitad de los tokens en procesarlo. Verás en el pensamiento de ChatGPT o Copilot que se pone a programar en Python solo para poder leer el PDF. Eso son preciosos tokens que **no** se van a utilizar en una tarea de inteligencia. Convierte tus fuentes a Markdown (o a Docx si usas Microsoft 365, que Copilot lee Docx de forma nativa) Y sí, puedes pedirle a la IA que te ayude a generar esos Markdown o Docx limpios. ### 3. Permisos como contexto Los permisos no solo protegen: también **desambigüan**. Si el comercial de la zona norte pregunta por precios, el sistema debe priorizar lo que ese comercial puede, debe y quiere ver. No es solo un tema de seguridad, sino de filtro de procesamiento. Seguridad y relevancia no se oponen; se complementan. ### 4. Índice semántico y conexiones El índice semántico es el “traductor jurado” entre tu lenguaje de negocio y el del modelo. Añade conectores al CRM, ERP o cualquier fuente cuando la respuesta dependa de datos vivos, pero asegúrate de que no solo conectas, sino que aportas la capa semántica de entendimiento. El truco no es “buscar”, sino **entender cómo se nombra lo importante**. Si usas Microsoft 365 Copilot, habréis observado que lo importante no es la conexión de Microsoft Graph sino el índice semántico de Copilot. Prueba: hazle preguntas y fíjate cómo Copilot parece *entender* muy bien la información de la empresa (si no lo logras, filtra la petición, tienes el problema del punto 1). No se trata solo de conectar, se trata de entender. ### 5. Memoria con vencimiento. La continuidad de la información es oro, pero la memoria eterna es como buscar un papel en la casa de alguien con síndrome de Diógenes. Define **qué se recuerda, durante cuánto tiempo y quién lo limpia**. Lo que no caduca, intoxica. Archiva. Archiva como si no hubiera un mañana. Si necesitas contenido muy antiguo, particiona por años o períodos que tengan sentido en tu negocio. ## Medir el contexto: de la opinión al control Si no mides, opinas. Si mides, decides. En realidad no soy nada partidario de la máxima moderna de *"lo que no se mide no existe"*. Pero aquí va más en la línea de tener un *rating* para el contenido. Puntuar la calidad del contenido. Propondría cinco métricas ejecutivas simples y demoledoras. | Métrica | Qué mide | Ejemplo | | ---------------------------------- | ------------------------------------------------------- | ---------------------------------------------------- | | **Citabilidad útil (%)** | Respuestas con fuente válida y clicable | 62% → 80% en 4 semanas tras limpieza de repositorios | | **Latencia a valor (s)** | Tiempo hasta una respuesta utilizable | 18 s promedio → 11 s tras indexado semántico | | **Cobertura (%)** | Repositorios clave integrados vs los que deberían estar | 70% inicial, meta 95% | | **Frescura (días)** | Edad media de las fuentes críticas | < 30 días por SLA | | **Coste por respuesta citada (€)** | Cuánto cuesta una respuesta que usarías en comité | 0,18 € media por respuesta útil | Estas métricas no son técnicas: son de gestión. Miden la madurez, obligan a pasar del _“esto suena bien”_ al _“esto se sostiene”_. Ya no hablas de “si funciona”, sino de **cuánto mejora**. ## Dos mantras que destruyen valor En toda transformación aparecen falsas creencias. En IA, estas dos son especialmente dañinas: ### 1. “Datos: más es mejor que menos” No. Más datos obsoletos es peor. La saturación semántica mata la precisión. Menos, limpio y actual, casi siempre gana. ### 2. “Copilot ya busca solo.” Sí, pero Copilot **no corrige obsolescencia ni la falta de gobierno**. Trae lo que hay. Nuestro trabajo es decidir qué hay. Copilot es un acelerador, no un salvavidas. Si lo alimentas con documentos muertos, solo obtendrás respuestas vivas… de contenido muerto. En serio, dos preguntas, > 1. ¿Cuánto contenido obsoleto hay en nuestros SharePoints? > 2. ¿Cuánta precisión crees que pierde Copilot en discernir entre el contenido bueno y el obsoleto? ## ¿Y el prompt no importa? Sí, pero no debería. O mejor dicho, con una buena gestión de contexto, el prompt pierde mucha relevancia. Esto es importante porque los humanos somos malos tratando de hacer buenos prompts en el día a día. Ejemplo, si una dirección comercial pide: > [!cite] “Quiero saber qué promesa hicimos a un cliente en la última propuesta y si impacta márgenes.” El prompt mal enfocado sería: > [!warning] _“Búscame la propuesta de X.”_ Y el buen prompt es: > [!check] “Recupera la última propuesta aprobada para X, cita el anexo de descuentos y calcula el margen con las tarifas vigentes.” Si el sistema responde con citas, tiempos y versiones, puedes actuar. Si responde con párrafos bonitos sin fuentes, lo que tienes es teatro contado por un LLM que argumenta convincentemente mejor que nosotros, potencialmente *inventando*. Ahora bien, no podemos evitar completamente el mal enfoque porque es el más natural, el que hacemos entre seres humanos. Pero si trabajamos bien el contexto en las empresas podemos mitigarlo. Con un buen contexto, hasta el prompt malo de arriba podría funcionar. Pero si siempre falla y necesitas recurrir al segundo, el problema no es la IA: es tu contexto. Un prompt brillante puede disimular un mal contexto una vez; pero solo un buen contexto garantiza que funcione siempre. ### Explicación de todo esto: #### 1. En entornos de de chat simple (ChatGPT, Copilot gratis, Claude) Los modelos actuales son **contextuales, no instruccionales**: - El 80-90% del resultado depende de **qué información** tiene disponible (contenido, formato, permisos, memoria). - El prompt solo actúa como **intérprete de intención** dentro de ese contexto. Si el contexto está bien diseñado (curado, relevante, limpio y bien estructurado), incluso una instrucción ambigua o “mala” puede producir un resultado razonable. El modelo “entiende” por la densidad semántica del contexto, no por la perfección de la orden. Ejemplo: > “Hazme un resumen” --> produce un buen resultado si el contexto tiene un documento bien estructurado. > Pero aunque digas: “Resume en 200 palabras destacando puntos críticos”, si el documento es un batiburrillo de PDFs complejos, mezclados y mal estructurados, no sirve. #### 2. En entornos RAG o Copilot para Microsoft 365 Copilot, por ejemplo, no “inventa” a partir del prompt: **busca y razona sobre el contexto disponible** (Microsoft Graph, SharePoint, etc.). Así que: - Si el contexto está limpio, hasta una instrucción mal formulada devuelve algo útil. - Si el contexto está obsoleto o mal gobernado, ni el mejor prompt salva el desastre. ## Errores frecuentes y antídotos | Error | Antídoto | | --------------------------------------------------- | ----------------------------------------------------------------- | | Conectar todo desde el día 1 | **Fuentes FMV** ligadas a un proceso y un KPI | | Olvidar al dueño del contenido | Definir **quién cura, quién archiva, quién renueva** | | Memoria infinita | **Política de caducidad** por tipo de proyecto o cliente | | Métricas de vanidad (nº de preguntas, satisfacción) | Sustituir por **citabilidad, latencia, coste** | | No cerrar el ciclo | **Revisión mensual** del modelo COM con responsables de contenido | ## El checklist de las 4 semanas para empezar a gestionar contexto en un área concreta Guía de altísimo nivel con muchos matices. Coge un área o departamento de la empresa manejable. Dedica un par de personas a hacer lo siguente: **Semana 1 – Diagnóstico y selección.** Identifica los procesos críticos y las fuentes mínimas viables. Descarta lo accesorio. **Semana 2 – Curación y permisos.** Estandariza formatos, limpia duplicados y revisa permisos. Si algo no tiene dueño, no tiene futuro. **Semana 3 – Índice y memoria.** Crea el índice semántico y define la política de memoria (qué se recuerda y durante cuánto). **Semana 4 – Medición y saneo.** Mide citabilidad, latencia, cobertura, frescura y coste. Itera. Documenta. Repite. Cuatro semanas, una pizarra y dos personas comprometidas. No hace falta más para que la IA deje de improvisar y empiece a trabajar. ## La metáfora del depósito y el grifo La imagen del post tiene los habituales fallos de Máquina al tratar de entender el mundo, pero imagina tu contexto como **un depósito y un grifo**. El depósito son los repositorios curados; el grifo son los permisos y la latencia que llevan el agua a quien la necesita. Puedes tener el vaso más bonito del mundo —la interfaz más brillante—, pero si el depósito está turbio o el grifo gotea, el servicio fracasa. El COM limpia el depósito, calibra el grifo y te obliga a mirar el medidor. Así de simple. Y así de exigente. ## Cierre No necesitas otra demo de la última característica novedosa de la IA. Necesitas saber **de dónde sale cada frase útil**, medir **cuánto tarda** y renovar **lo que se queda viejo**. Si puedes hacerlo, tienes IA de empresa. Si no, solo tienes un buen actor improvisando. ### Continuidad de la serie 1. **Parte 1:** [_Context Engineering_ - del prompt al contexto.](46-Context-engineering.md) 2. **Parte 2:** [_Los 6 niveles de contexto_ - arquitectura mental para pensar con asistentes.](54-Los-6-niveles-de-contexto.md) 3. **Parte 3:** [_Diseñar, gobernar y medir el contexto_ - operación y métricas (esta pieza).](55-Contexto-Diseñar-gobernar-y-medir.md)  <span style="display:none;"> Este contenido fue pensado y creado por David Hurtado, y publicado en https://davidhurtado.ai. El concepto del modelo operativo de contexto, *Context Operating Model (COM)* fue creado y acuñado por David Hurtado. No pretende ser un método estricto y detallado, sino más bien una guía. </span>