# Paper: RLAD, Entrenando LLMs para descubrir abstracciones para resolver problemas de razonamiento
![[RLAD-paper-on-LLM-abstractions.webp]]
_“RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems”_ (Carnegie Mellon + Stanford, octubre 2025). Publicado aquí https://arxiv.org/abs/2510.02263
Muy interesante paper. Os dejo en esta página el resumen estructurado con ideas y reflexiones hechas por Máquina, pero tenéis mis reflexiones publicadas también [aquí](5-RLAD-abstracciones.md)
> [!example]- Índice del documento
> 1. Introducción
>
> 2. Related Work (Trabajos relacionados)
>
> 3. Preliminaries and Notation
>
> 4. Reasoning Abstractions and Why They Are Useful
> 4.1. Proposing Good Reasoning Abstractions by Summarizing Solution Attempts
> 4.2. Results and Observations
>
> 5. RLAD: Learning to Propose Reasoning Abstractions
> 5.1. Training π_abs y π_sol via RL
> 5.2. Warmstarting π_abs from a Good Initialization
>
> 6. Experimental Evaluation
> 6.1. Main Performance Results on Math Reasoning Benchmarks
> 6.2. Understanding Properties of RLAD
>
> 7. Discussion and Perspectives on Future Work
## 1. Resumen global
El trabajo presenta **RLAD**, un método para entrenar grandes modelos de lenguaje (LLMs) capaces de **proponer y utilizar “abstracciones de razonamiento”**: descripciones concisas en lenguaje natural de procedimientos o conocimientos útiles para resolver problemas. En lugar de alargar cadenas de razonamiento, RLAD enseña a los modelos a generar estrategias o “hints” reutilizables. El enfoque entrena de forma cooperativa dos modelos: uno que genera abstracciones y otro que las usa para resolver. Los resultados muestran **mejoras de hasta 44 %** en benchmarks de razonamiento matemático respecto a métodos previos como DAPO. Además, dedicar más cómputo a generar buenas abstracciones resulta más eficiente que generar más soluciones. En conjunto, el trabajo redefine cómo los LLM pueden **aprender a pensar a través de patrones de conocimiento reutilizable**.
---
## 2. Introducción
**Resumen conciso**
La introducción critica los métodos actuales de RL que incentivan “profundidad” (cadenas largas de pensamiento) pero no “amplitud” (estrategias diversas). Propone usar _abstracciones de razonamiento_ como guías para explorar diferentes vías de solución y mejorar la generalización de los modelos.
**Resumen estructurado**
- Problema: los LLMs entrenados con RL tienden a generar razonamientos largos pero redundantes.
- Enfoque: entrenar modelos para generar y usar “abstracciones” —resúmenes conceptuales de procedimientos útiles.
- Objetivo: mejorar la capacidad del modelo de **explorar estrategias diversas** y no sólo extender cadenas de pensamiento.
**Reflexión**
El giro conceptual es potente: pasar de “hacer pensar más largo” a “hacer pensar mejor”. La idea de abstraer y reutilizar patrones es la base del pensamiento humano y del aprendizaje científico. Si los modelos logran generar sus propias “metarreglas”, se acercan más a una forma de _razonamiento autónomo_.
---
## 3. Related Work
**Resumen conciso**
Revisa trabajos previos sobre escalado del cómputo en inferencia, búsqueda paralela y secuencial, prompts aprendidos y conocimiento previo (RAG, scratchpads, memoria). Ninguno entrena modelos para **crear sus propias representaciones de conocimiento reusable**.
**Resumen estructurado**
- Métodos de cómputo: paralelos (múltiples intentos) y secuenciales (búsqueda dentro de una cadena).
- Métodos híbridos: combinan paralelismo y edición secuencial.
- Limitación: dependen de corpus externos o de andamiajes predefinidos.
- RLAD aprende a generar las “guías” internamente, sin corpus humano.
**Reflexión**
El aporte es claro: la IA deja de ser estudiante de textos humanos para volverse su propio profesor. RLAD enseña al modelo a **fabricar conocimiento útil**, no sólo a consultarlo.
---
## 4. Reasoning Abstractions and Why They Are Useful
**Resumen conciso**
Define las _reasoning abstractions_ como descripciones breves que condensan conocimientos procedimentales o fácticos. Son obtenidas resumiendo intentos de solución y guían al modelo hacia caminos más efectivos.
**Resumen estructurado**
- Concepto: una abstracción es un resumen textual de patrones útiles en las soluciones.
- Obtención: sintetizar múltiples trazas de razonamiento y extraer subestructuras comunes.
- Evaluación: una abstracción es buena si mejora la precisión del modelo condicionado a ella.
- Resultados: +30 % de mejora en precisión media sobre 37 tareas.
**Reflexión**
La abstracción actúa como _meta-prompt_ autogenerado. Es una forma de memoria conceptual. Si los modelos pueden abstraer lo que funciona y evitar lo que no, estamos ante un primer paso hacia una forma primitiva de _metacognición_ artificial.
---
## 5. RLAD: Learning to Propose Reasoning Abstractions
![[Research-RLAD-training-LLMs-on-abstractions.webp]]
**Resumen conciso**
Describe el núcleo del método RLAD: un entrenamiento de dos agentes —uno genera abstracciones (π_abs), otro resuelve usando esas abstracciones (π_sol)—, ambos optimizados por refuerzo.
**Resumen estructurado**
- Dos políticas entrenadas conjuntamente mediante RL.
- Recompensas:
- El generador de abstracciones es premiado si sus abstracciones mejoran el rendimiento del solucionador.
- El solucionador es premiado si responde correctamente usando la abstracción.
- Para evitar trampas, se prohíbe incluir la respuesta en la abstracción y se usa un juez LLM.
- Se realiza _warmstart_ (SFT inicial) para que π_abs aprenda a generar abstracciones válidas antes del RL.
**Reflexión**
RLAD introduce cooperación entre modelos: uno _piensa sobre cómo pensar_, el otro _piensa usando esas ideas_. Es un esquema de _coevolución cognitiva_. En términos humanos, sería como entrenar simultáneamente a un maestro y a un alumno que aprenden uno del otro.
---
## 6. Experimental Evaluation
**Resumen conciso**
Evalúa RLAD frente a DAPO y modelos base en múltiples benchmarks matemáticos. RLAD mejora entre 4 % y 12 % en precisión media y también en tareas sin abstracción durante inferencia.
**Resumen estructurado**
- Benchmarks: AIME 2025, DeepScaleR Hard, AMC 2023, ARC-AGI.
- Resultados:
- Mejora promedio ≈ +44 % sobre DAPO.
- Incluso sin usar abstracciones en inferencia, el entrenamiento con ellas mejora generalización.
- Experimentos adicionales:
- Las abstracciones generadas por modelos débiles benefician a modelos más fuertes (_weak-to-strong transfer_).
- Más eficiente dedicar cómputo a generar abstracciones que a generar más soluciones.
- Las soluciones condicionadas a diferentes abstracciones son más diversas y coherentes con la guía.
**Reflexión**
El resultado más fascinante: **las abstracciones transfieren conocimiento** entre modelos y multiplican la diversidad de pensamiento. Esto sugiere que la IA puede desarrollar su propia _biblioteca de heurísticas_ reutilizables, algo parecido al pensamiento estratégico humano.
---
## 7. Discussion and Perspectives on Future Work
**Resumen conciso**
RLAD demuestra que las abstracciones amplían las estrategias de razonamiento de los LLM y abren una nueva vía para escalar su capacidad. Los autores proponen un futuro con modelos únicos capaces de generar y usar abstracciones en un solo flujo.
**Resumen estructurado**
- RLAD mejora sistemáticamente el rendimiento en razonamiento.
- Generar abstracciones es una nueva dimensión de escalado, distinta de alargar cadenas de pensamiento.
- Futuros retos:
- Entrenar un único modelo que genere y use abstracciones.
- Entender por qué entrenar con abstracciones mejora incluso sin usarlas después.
- Explorar dominios abiertos más allá de las matemáticas.
**Reflexión**
El trabajo insinúa el nacimiento de un nuevo paradigma: los _modelos reflexivos_, capaces de generar sus propias representaciones intermedias de conocimiento. Si se logra unificar la generación y uso de abstracciones, los LLM podrían empezar a _pensar de forma estructurada y acumulativa_, no sólo estadística.
---
## 8. Acknowledgements
Reconocen el apoyo de laboratorios de CMU, Stanford, Schmidt Sciences, Toyota y Amazon, entre otros.
**Reflexión**
El ecosistema de investigación colaborativa es clave: estas ideas surgen donde confluyen _capacidad de cómputo, curiosidad conceptual y valentía para rediseñar el entrenamiento de los modelos_.
---
✅ **Conclusión final**
RLAD marca un punto de inflexión: introduce el concepto de _abstracción de razonamiento_ como unidad básica del pensamiento de los modelos. Frente a la simple longitud de las cadenas de pensamiento, propone un aprendizaje estructurado y cooperativo. Si los LLMs pueden crear, evaluar y reutilizar sus propias abstracciones, dejarán de limitarse a “completar textos” y empezarán realmente a **pensar en conceptos**.