2 de diciembre de 2024
# ¿Pueden los modelos de lenguaje aprender a razonar mejor?
Hoy he aprendido una cosa muy interesante, os la cuento.
¿Sabías que los modelos de lenguaje más avanzados no pueden **"mirar hacia atrás"** para revisar el contexto? Este sorprendente detalle técnico limita un montón su capacidad de razonamiento. Imagina intentar entender un libro leyendo cada página sin poder revisar la anterior ni anticiparte a lo que vendrá. Así funcionan hoy la mayoría de los modelos de lenguaje autoregresivos (ARMs), como los GPTs de OpenAI y Copilot.
Pero eso podría cambiar gracias a un nuevo enfoque, ojo a esto, **inspirado en los modelos de generación de imagen**.

## El problema de los modelos de lenguaje
Los modelos de lenguaje tradicionales (si es que se les puede llamar tradicionales, los autoregresivos, o ARMs) procesan el texto palabra a palabra, siguiendo una única dirección: *del pasado al presente*. Esto significa que sólo pueden predecir la siguiente palabra basándose en lo que ya han generado, sin considerar el contexto futuro. Esta forma de trabajar tiene dos grandes limitaciones:
1. **Errores acumulativos**: Si el modelo elige mal una palabra, este error puede alterar el significado de todo el texto que sigue.
2. **Falta de razonamiento profundo**: Los ARMs tienen dificultades para comprender relaciones bidireccionales, como entender que "A es B" implica "B es A". Además, sufren para ajustarse a cambios temporales en los datos, como cuando un evento reciente contradice patrones anteriores.
> [!question] ¿Razonan los modelos de lenguaje actuales?
> Los ARMs son buenísimos para tareas de lenguaje e incluso para ciertos tipos de razonamiento, pero están muy lejos de razonar como un humano. Digamos que razonan **de manera secuencial y predictiva**. Un ejemplo interesante es _o1_ de OpenAI, que, antes de "responder" a una pregunta o generar una frase completa, procesa una serie de tokens para simular un razonamiento previo. Sin embargo, este proceso sigue siendo **unidireccional**, siempre avanzando hacia adelante. No pueden reflexionar sobre el razonamiento completo ni "dar vueltas" sobre las ideas como haríamos las personas. Tampoco tienen la capacidad de retroalimentarse ni reconsiderar sus elecciones una vez hechas.
## Inspiración en los modelos de difusión
Aquí es donde entran los **modelos de difusión**, una tecnología que ha revolucionado la generación de imágenes. Estos modelos no generan imágenes de forma lineal, sino que trabajan "completando huecos". Empiezan con ruido y, poco a poco, reconstruyen la imagen refinando detalles, siempre considerando el contexto global.
> [!info] Cómo funcionan los modelos de generación de imagen
> [...] empiezan con ruido y, poco a poco, reconstruyen la imagen refinando detalles, siempre **considerando el contexto global**
Inspirados por este enfoque, los investigadores han creado los **Masked Diffusion Models (MDMs)** para texto. A diferencia de los ARMs, los MDMs no procesan palabra por palabra. En su lugar, toman un texto incompleto, enmascaran ciertas palabras y las completan basándose en el contexto completo, tanto pasado como futuro. Es como si leyeran todo el libro antes de decidir qué palabra encaja mejor en cada hueco.
### ¿Qué aportan los MDMs?
Esta arquitectura ofrece varias ventajas prometedoras:
- **Comprensión más profunda**: Los MDMs pueden captar relaciones complejas porque analizan el texto de manera bidireccional. Esto los hace mucho más efectivos en tareas de razonamiento lógico.
- **Robustez frente a cambios**: Los MDMs son menos sensibles a cambios en los datos temporales, lo que los hace más adaptables en entornos dinámicos.
- **Reducción de errores**: Al trabajar con el contexto completo, disminuyen los errores que podrían alterar el significado de un texto.
En pruebas recientes, los MDMs han mostrado resultados comparables, e incluso superiores, a modelos como GPT en tareas de comprensión de lenguaje. Además, tienen el potencial de ser más eficientes en ciertas aplicaciones, lo que podría marcar una gran diferencia en cómo se desarrollan futuros modelos.
## Un futuro prometedor
Aunque aún queda mucha investigación por hacer, estos modelos podrían convertirse en la base de una nueva generación de inteligencia artificial que no sólo genere texto, sino que lo entienda con mayor profundidad.
El salto de los ARMs a los MDMs es como pasar de leer con una linterna enfocada en una línea a encender todas las luces de la sala. Puede que los modelos de difusión sean la clave para que los sistemas de lenguaje no sólo escriban, sino que también razonen.
Esto avanza muy rápido. Tenéis un paper de octubre de 2024 que habla de esto, y que he usado como base para investigar todo este tema. Se llama "Scaling Up Masked Diffusion Models on Text" y lo tenéis aquí --> https://arxiv.org/abs/2410.18514
---
Este post fue escrito con ayuda de Máquina, por supuesto, el 2 de diciembre de 2024, y fue a [X](https://x.com/dhtoran/status/1863648000196689930) y a LinkedIn también.