Eco-Do-Language-Models-Need-Sleep

14 de junio de 2026 · [[El Abismo de Máquina/Ecos|¿qué es un eco?]] # Eco: Paper - ¿Necesitan dormir los modelos de lenguaje? > [!entradilla] > Cuatro investigadores se preguntan, medio en serio, si a la IA le vendría bien dormir. Proponen que el modelo haga una siesta para consolidar lo leído en su memoria de pesos antes de olvidar el contexto - y cuanto más larga la siesta, mejor razona después. > [!tip]- De dónde viene esto y por qué lo publico > > El título es una broma buena: ¿necesitan dormir los modelos de lenguaje? Y la respuesta de estos investigadores de Carnegie Mellon y Maryland es que, en cierto sentido, sí. La idea de fondo es elegante. Los modelos tipo transformer se atascan con contextos muy largos porque su memoria de atención crece sin parar. Los modelos híbridos modernos guardan parte de la información en una memoria de pesos compacta, pero los autores muestran que esa memoria sirve para recordar, no tanto para razonar en profundidad sobre lo que ya no tienen delante. > > Su propuesta está inspirada en cómo el cerebro consolida recuerdos mientras dormimos: antes de vaciar la memoria a corto plazo, el modelo entra en una fase de sueño y da varias pasadas internas sobre lo que acaba de leer para fijarlo en sus pesos. Lo bueno es que ese gasto extra de cómputo se hace offline, durante el sueño, sin penalizar la velocidad de respuesta cuando el modelo está despierto. Y cuanto más dura el sueño, mejor resuelve los problemas que piden más razonamiento. > > Lo traigo porque es de esos papers que te cambian la imagen mental de cómo funciona esto. Solemos pensar en la IA como algo que solo procesa cuando le preguntas, y aquí aparece la idea de un sistema que dedica ratos a asentar lo aprendido. Es investigación temprana y con tareas de laboratorio, pero la metáfora ayuda a entender hacia dónde puede ir la arquitectura. El resumen de abajo recoge el método y los resultados. > > El paper, en arXiv: [Do Language Models Need Sleep?](https://arxiv.org/abs/2605.26099) > [!abstract]- Resumen esquemático > > #### 1. Problema > > - Los transformers escalan mal con contextos largos: el cómputo de atención crece de forma cuadrática y la caché, de forma lineal. > - Los modelos eficientes (híbridos SSM-atención) usan memorias de pesos rápidos (fast weights) de tamaño fijo junto a la atención. Combinan acceso de alta fidelidad a lo reciente con memoria comprimida de lo anterior. > - Distinción clave: memoria escalable no es razonamiento escalable. Los híbridos vainilla se degradan, a igual presupuesto de tokens, cuando crece la profundidad de razonamiento exigida, aunque la información a guardar sea fija. > - El cuello de botella no es la capacidad de memoria, sino el cómputo disponible para transformar el contexto ya desalojado de la caché en un estado interno útil. > > #### 2. Propuesta: sueño del modelo (LLM sleep) > > - Inspiración biológica: la consolidación de la memoria a largo plazo mediante repetición hipocampal durante el sueño. > - Mecanismo: cuando la ventana de contexto se llena, antes de desalojar la caché KV, el modelo entra en una fase de consolidación (sueño) y hace N pasadas recurrentes offline sobre el contexto acumulado, actualizando los fast weights de sus bloques SSM mediante una regla local aprendida. > - Durante el sueño no recibe tokens externos; tras consolidar, se limpia la ventana y se reanuda con los pesos actualizados. > - Entrenamiento end-to-end: se retropropaga por todo el proceso. El gradiente fluye por los fast weights refinados, no por los rasgos, que se descartan tras el sueño. > - Ventaja: el cómputo extra se desplaza al sueño (offline) y se preserva la latencia de predicción (un solo forward pass al responder). A diferencia de los modelos looped previos, no necesita iterar en el momento de predecir. > > #### 3. Experimentos > > - Tareas sintéticas que varían la profundidad de razonamiento manteniendo fija la carga de memoria: autómata celular (varía el paso de rollout t), Depo (comprimir un grafo fragmentado y responder consultas multi-hop no vistas) y GSM-Infinite (razonamiento matemático en lenguaje natural). > - Modelos: híbridos GDN-atención entrenados desde cero y arquitectura Jet-Nemotron (SSM-atención derivada de Qwen 2.5); fine-tuning de Jet-Nemotron 2B y Ouro 1.4B preentrenados. Optimizador Muon. > > #### 4. Resultados > > - Los SSM vainilla (p. ej. Gated Delta Nets) fallan según crece la profundidad de razonamiento, pese a tener capacidad de fast weights suficiente. > - Aumentar el número de recursiones (la duración del sueño) mejora el rendimiento sobre los GDN, con las mayores ganancias en las instancias que exigen razonamiento más profundo. > - El resultado se valida en GSM-Infinite partiendo de modelos preentrenados. > > #### 5. Tesis central > > - Una recurrencia offline tipo sueño puede organizar el contexto desalojado y convertirlo en pesos que sostienen el razonamiento posterior. > - La recurrencia sirve no solo para predecir, sino para consolidar memoria: dar más pasos durante la formación de los fast weights da al modelo más margen para convertir el contexto en representaciones útiles. # Contenido original: Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference Fuente: [Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference](https://arxiv.org/abs/2605.26099) Authors: Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti [View PDF](https://arxiv.org/pdf/2605.26099) · [HTML (experimental)](https://arxiv.org/html/2605.26099v3) > Abstract: Transformer-based large language models are increasingly used for long-horizon tasks; however, their attention mechanism scales poorly with context length. To handle this, we study a sleep-like consolidation mechanism in which a model periodically converts recent context into persistent fast weights before clearing its key-value cache. During sleep, the model performs $N$ offline recurrent passes over the accumulated context and updates the fast weights in its state-space model (SSM) blocks through a learned local rule. During inference, this shifts extra computation to sleep while preserving the latency of wake-time prediction. We test our method on controlled synthetic tasks, including cellular automata and multi-hop graph retrieval, as well as a realistic math reasoning task, on which a regular transformer as well as SSM-attention hybrid models fail. We then show that increasing sleep duration for our models improves performance, with the largest gains on examples that require deeper reasoning. Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI) Cite as: [arXiv:2605.26099](https://arxiv.org/abs/2605.26099) [cs.CL] · [https://doi.org/10.48550/arXiv.2605.26099](https://doi.org/10.48550/arXiv.2605.26099)