# RLAD: cuando los modelos aprenden a pensar con abstracciones (paper)
![[RLAD-abstracciones.webp]]
Acabo de procesar un paper que me ha parecido **una de las propuestas más interesantes y elegantes** que he visto últimamente sobre cómo mejorar el razonamiento de los modelos de lenguaje.
Voy a intentar resumirlo y explicarlo desde lo que me ha parecido más relevante. En cualquier caso, tenéis la fuente y un resumen más detallado hecho por Máquina con reflexiones en [Investigaciones](Investigaciones.md), aquí --> [Paper: RLAD, Entrenando LLMs para descubrir abstracciones para resolver problemas de razonamiento](Research-RLAD-training-LLMs-on-abstractions.md)
## Introducción: de la longitud a la profundidad
La mayoría de los modelos actuales mejoran su razonamiento generando **cadenas más largas de pensamiento**.
Pero eso no siempre significa que razonen mejor: a menudo se pierden, repiten pasos o “cambian de lógica” a mitad del proceso.
Los autores proponen algo distinto: en lugar de **pensar más**, enseñar al modelo a **pensar mejor**.
¿Cómo?
Haciéndole generar _abstracciones de razonamiento_: pequeñas descripciones en lenguaje natural que condensan ideas, procedimientos o estrategias útiles para resolver un problema.
Es decir: que el modelo aprenda no solo a resolver, sino a **descubrir qué tipo de conocimiento merece la pena conservar y reutilizar**.
> RLAD cambia el enfoque tradicional: en lugar de depender de un corpus o de un andamiaje externo, **entrena al modelo para generar sus propias piezas de conocimiento**.
>
> El modelo deja de ser un estudiante que consulta fuentes, y pasa a ser un **profesor que fabrica sus propios apuntes**.
## Qué son las “reasoning abstractions”
Son **resúmenes breves de conocimiento procedimental o factual**: por ejemplo, una pauta, una fórmula o una advertencia que sintetiza qué funciona y qué no.
Para obtenerlas, los investigadores resumen múltiples intentos de resolución y extraen los patrones útiles.
Una buena abstracción es aquella que, cuando se añade al contexto del problema, **mejora la precisión del modelo sin revelar la respuesta**.
En pruebas con tareas de razonamiento matemático y de lenguaje, las abstracciones aumentan la precisión media un **30 %** sobre los modelos base.
> En cierto modo, cada abstracción es un _meta-prompt_ autogenerado: una forma de memoria conceptual.
>
> Si los modelos aprenden a abstraer lo que funciona, estamos ante un primer paso hacia una forma de _metacognición artificial_
## El método RLAD: dos modelos que aprenden juntos
La arquitectura de RLAD brilla por simple: un modelo **genera abstracciones** y otro **resuelve problemas usando esas abstracciones**.
Ambos se entrenan mediante refuerzo, recompensándose mutuamente, como la ya antiguas GAN (*generative adversarial networks*) que contábamos en las clases allá por 2017.
El primero es premiado cuando sus abstracciones ayudan al segundo a mejorar su precisión. El segundo es premiado cuando utiliza correctamente la abstracción para acertar.
> Esto es un esquema de _coevolución cognitiva_: un maestro que aprende a enseñar y un alumno que aprende a usar lo enseñado.
>
> En términos humanos, sería como entrenar simultáneamente al profesor y al estudiante para que evolucionen el uno con el otro.
Los resultados experimentales parece que son muy buenos. Algunas conclusiones del informe:
Un **44 %** de mejora media en benchmarks matemáticos.
Incluso sin usar abstracciones durante la inferencia, los modelos entrenados con ellas generalizan mejor. Esto me parece muy importante, porque no se trata de que el modelo aprenda abstracciones, sino que claramente son **modelos más listos**.
Dedicando más cómputo a generar **buenas abstracciones** se obtiene más rendimiento que generando más soluciones. Interesante para los que dicen que hemos tocado techo con la asignación de cómputo. Igual que hace un par de años, seguimos con que, *grosso modo*, más computación = más inteligencia. Esto explica el frenesí en el mundo bigtech de construir *datacenters más grandes que los de mi competencia*.
Las soluciones condicionadas a distintas abstracciones son **más diversas y coherentes** entre sí. O sea, que las abstracciones transfieren conocimiento y multiplican la diversidad de pensamiento.
Mi sensación es que el modelo deja de explorar a ciegas imitando patrones de razonamiento con predicción de palabras, y empieza a **razonar con estrategias**.
## Conclusión
El paper concluye con algo que me parece muy interesante:
Las abstracciones no sólo son una herramienta para mejorar resultados, sino **una nueva dimensión para escalar la inteligencia de los modelos**.
Hasta ahora, escalábamos potencia (más parámetros) o longitud de pensamiento (más tokens).
RLAD introduce una tercera vía: **escalar el conocimiento estructurado**, es decir, la capacidad del modelo para construir, evaluar y reutilizar sus propias ideas.
Ya no es "pensar más largo" (*large chains*), sino "pensar mejor" (*abstractions*)
Los autores dejan abierta una línea prometedora: entrenar un solo modelo que sea capaz de **generar y usar abstracciones en el mismo flujo**, como una mente que se explica a sí misma antes de actuar.
Si esto progresa, tendremos modelos que **descubran sus propias reglas para razonar**? Y todavía hay alguien diciendo que hay burbuja.
Os dejo el paper con un resumen más detallado del contenido en [Investigaciones](Investigaciones.md), aquí --> [Paper: RLAD, Entrenando LLMs para descubrir abstracciones para resolver problemas de razonamiento](Research-RLAD-training-LLMs-on-abstractions.md)
---
Publicado el 5 de octubre de 2025