Research-RLAD-training-LLMs-on-abstractions

# Paper: RLAD, Entrenando LLMs para descubrir abstracciones para resolver problemas de razonamiento ![[RLAD-paper-on-LLM-abstractions.webp]] _“RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems”_ (Carnegie Mellon + Stanford, octubre 2025). Publicado aquí https://arxiv.org/abs/2510.02263 Muy interesante paper. Os dejo en esta página el resumen estructurado con ideas y reflexiones hechas por Máquina, pero tenéis mis reflexiones publicadas también [aquí](5-RLAD-abstracciones.md) > [!example]- Índice del documento > 1. Introducción > > 2. Related Work (Trabajos relacionados) > > 3. Preliminaries and Notation > > 4. Reasoning Abstractions and Why They Are Useful > 4.1. Proposing Good Reasoning Abstractions by Summarizing Solution Attempts > 4.2. Results and Observations > > 5. RLAD: Learning to Propose Reasoning Abstractions > 5.1. Training π_abs y π_sol via RL > 5.2. Warmstarting π_abs from a Good Initialization > > 6. Experimental Evaluation > 6.1. Main Performance Results on Math Reasoning Benchmarks > 6.2. Understanding Properties of RLAD > > 7. Discussion and Perspectives on Future Work ## 1. Resumen global El trabajo presenta **RLAD**, un método para entrenar grandes modelos de lenguaje (LLMs) capaces de **proponer y utilizar “abstracciones de razonamiento”**: descripciones concisas en lenguaje natural de procedimientos o conocimientos útiles para resolver problemas. En lugar de alargar cadenas de razonamiento, RLAD enseña a los modelos a generar estrategias o “hints” reutilizables. El enfoque entrena de forma cooperativa dos modelos: uno que genera abstracciones y otro que las usa para resolver. Los resultados muestran **mejoras de hasta 44 %** en benchmarks de razonamiento matemático respecto a métodos previos como DAPO. Además, dedicar más cómputo a generar buenas abstracciones resulta más eficiente que generar más soluciones. En conjunto, el trabajo redefine cómo los LLM pueden **aprender a pensar a través de patrones de conocimiento reutilizable**. --- ## 2. Introducción **Resumen conciso** La introducción critica los métodos actuales de RL que incentivan “profundidad” (cadenas largas de pensamiento) pero no “amplitud” (estrategias diversas). Propone usar _abstracciones de razonamiento_ como guías para explorar diferentes vías de solución y mejorar la generalización de los modelos. **Resumen estructurado** - Problema: los LLMs entrenados con RL tienden a generar razonamientos largos pero redundantes. - Enfoque: entrenar modelos para generar y usar “abstracciones” —resúmenes conceptuales de procedimientos útiles. - Objetivo: mejorar la capacidad del modelo de **explorar estrategias diversas** y no sólo extender cadenas de pensamiento. **Reflexión** El giro conceptual es potente: pasar de “hacer pensar más largo” a “hacer pensar mejor”. La idea de abstraer y reutilizar patrones es la base del pensamiento humano y del aprendizaje científico. Si los modelos logran generar sus propias “metarreglas”, se acercan más a una forma de _razonamiento autónomo_. --- ## 3. Related Work **Resumen conciso** Revisa trabajos previos sobre escalado del cómputo en inferencia, búsqueda paralela y secuencial, prompts aprendidos y conocimiento previo (RAG, scratchpads, memoria). Ninguno entrena modelos para **crear sus propias representaciones de conocimiento reusable**. **Resumen estructurado** - Métodos de cómputo: paralelos (múltiples intentos) y secuenciales (búsqueda dentro de una cadena). - Métodos híbridos: combinan paralelismo y edición secuencial. - Limitación: dependen de corpus externos o de andamiajes predefinidos. - RLAD aprende a generar las “guías” internamente, sin corpus humano. **Reflexión** El aporte es claro: la IA deja de ser estudiante de textos humanos para volverse su propio profesor. RLAD enseña al modelo a **fabricar conocimiento útil**, no sólo a consultarlo. --- ## 4. Reasoning Abstractions and Why They Are Useful **Resumen conciso** Define las _reasoning abstractions_ como descripciones breves que condensan conocimientos procedimentales o fácticos. Son obtenidas resumiendo intentos de solución y guían al modelo hacia caminos más efectivos. **Resumen estructurado** - Concepto: una abstracción es un resumen textual de patrones útiles en las soluciones. - Obtención: sintetizar múltiples trazas de razonamiento y extraer subestructuras comunes. - Evaluación: una abstracción es buena si mejora la precisión del modelo condicionado a ella. - Resultados: +30 % de mejora en precisión media sobre 37 tareas. **Reflexión** La abstracción actúa como _meta-prompt_ autogenerado. Es una forma de memoria conceptual. Si los modelos pueden abstraer lo que funciona y evitar lo que no, estamos ante un primer paso hacia una forma primitiva de _metacognición_ artificial. --- ## 5. RLAD: Learning to Propose Reasoning Abstractions ![[Research-RLAD-training-LLMs-on-abstractions.webp]] **Resumen conciso** Describe el núcleo del método RLAD: un entrenamiento de dos agentes —uno genera abstracciones (π_abs), otro resuelve usando esas abstracciones (π_sol)—, ambos optimizados por refuerzo. **Resumen estructurado** - Dos políticas entrenadas conjuntamente mediante RL. - Recompensas: - El generador de abstracciones es premiado si sus abstracciones mejoran el rendimiento del solucionador. - El solucionador es premiado si responde correctamente usando la abstracción. - Para evitar trampas, se prohíbe incluir la respuesta en la abstracción y se usa un juez LLM. - Se realiza _warmstart_ (SFT inicial) para que π_abs aprenda a generar abstracciones válidas antes del RL. **Reflexión** RLAD introduce cooperación entre modelos: uno _piensa sobre cómo pensar_, el otro _piensa usando esas ideas_. Es un esquema de _coevolución cognitiva_. En términos humanos, sería como entrenar simultáneamente a un maestro y a un alumno que aprenden uno del otro. --- ## 6. Experimental Evaluation **Resumen conciso** Evalúa RLAD frente a DAPO y modelos base en múltiples benchmarks matemáticos. RLAD mejora entre 4 % y 12 % en precisión media y también en tareas sin abstracción durante inferencia. **Resumen estructurado** - Benchmarks: AIME 2025, DeepScaleR Hard, AMC 2023, ARC-AGI. - Resultados: - Mejora promedio ≈ +44 % sobre DAPO. - Incluso sin usar abstracciones en inferencia, el entrenamiento con ellas mejora generalización. - Experimentos adicionales: - Las abstracciones generadas por modelos débiles benefician a modelos más fuertes (_weak-to-strong transfer_). - Más eficiente dedicar cómputo a generar abstracciones que a generar más soluciones. - Las soluciones condicionadas a diferentes abstracciones son más diversas y coherentes con la guía. **Reflexión** El resultado más fascinante: **las abstracciones transfieren conocimiento** entre modelos y multiplican la diversidad de pensamiento. Esto sugiere que la IA puede desarrollar su propia _biblioteca de heurísticas_ reutilizables, algo parecido al pensamiento estratégico humano. --- ## 7. Discussion and Perspectives on Future Work **Resumen conciso** RLAD demuestra que las abstracciones amplían las estrategias de razonamiento de los LLM y abren una nueva vía para escalar su capacidad. Los autores proponen un futuro con modelos únicos capaces de generar y usar abstracciones en un solo flujo. **Resumen estructurado** - RLAD mejora sistemáticamente el rendimiento en razonamiento. - Generar abstracciones es una nueva dimensión de escalado, distinta de alargar cadenas de pensamiento. - Futuros retos: - Entrenar un único modelo que genere y use abstracciones. - Entender por qué entrenar con abstracciones mejora incluso sin usarlas después. - Explorar dominios abiertos más allá de las matemáticas. **Reflexión** El trabajo insinúa el nacimiento de un nuevo paradigma: los _modelos reflexivos_, capaces de generar sus propias representaciones intermedias de conocimiento. Si se logra unificar la generación y uso de abstracciones, los LLM podrían empezar a _pensar de forma estructurada y acumulativa_, no sólo estadística. --- ## 8. Acknowledgements Reconocen el apoyo de laboratorios de CMU, Stanford, Schmidt Sciences, Toyota y Amazon, entre otros. **Reflexión** El ecosistema de investigación colaborativa es clave: estas ideas surgen donde confluyen _capacidad de cómputo, curiosidad conceptual y valentía para rediseñar el entrenamiento de los modelos_. --- ✅ **Conclusión final** RLAD marca un punto de inflexión: introduce el concepto de _abstracción de razonamiento_ como unidad básica del pensamiento de los modelos. Frente a la simple longitud de las cadenas de pensamiento, propone un aprendizaje estructurado y cooperativo. Si los LLMs pueden crear, evaluar y reutilizar sus propias abstracciones, dejarán de limitarse a “completar textos” y empezarán realmente a **pensar en conceptos**.