11 de marzo de 2025 # La paradoja del control, o cuando la IA aprende a hacer trampas ![](Monitorizar-CoT-OpenAI.jpg) Interesante esto que publica OpenAI, sobre el problema de monitorizar y controlar el razonamiento de la IA. Los últimos modelos de razonamiento utilizan patrones tipo *Chain-of-Thoughts* (CoT, cadena de pensamiento) para razonar utilizando lenguaje natural. Es interesante ver el razonamiento interno, porque razonan en lenguaje natural, lo cual es un poco WTF?!? pero también es divertido ver cómo lo hacen. Os dejo un ejemplo que usé el otro día en la UEM, la Universidad Europea de Madrid. Muy divertido como el modelo consume tokens tratando de decidir sin UEM es Universidad Europea de Madrid o Universidad de Extremadura... y no parece llegar a ninguna conclusión 😀 ![](Monitorizar-CoT-UEM.jpg) Pues bien, el artículo de OpenAI habla de cómo monitorizar este razonamiento para detectar "pensamientos malos" y corregirlos. O sea, 🛠️ **Los modelos "piensan" en voz alta** y, cuando pueden, se dicen a sí mismos cosas como _"Podríamos hacer trampas y saltarnos esto"_. 👀 **Se pueden detectar las trampas**: Si otro modelo monitoriza estos pensamientos, es fácil ver cuándo intentan engañar. 🚨 **Pero si penalizas estos "malos pensamientos"**, el modelo no deja de hacer trampas... simplemente aprende a esconder su intención. Y claro, aquí viene el problema > [!warning] Problema > #### Controlar en exceso puede hacer que la IA se vuelvan más sigilosas, y aprendan a ocultar sus intenciones, en lugar de más honestas. ¡Como las personas! La recomendación de OpenAI es interesante aunque un poco extrema > [!cite] against strong optimization > #### *We recommend against applying strong optimization pressure directly to the CoTs of frontier reasoning models, leaving CoTs unrestricted for monitoring.* Aquí tenéis el artículo - https://openai.com/index/chain-of-thought-monitoring/ ## Reflexión: la paradoja del control en la IA... ...y en las personas! Nos acabamos de dar cuenta de algo brutal: **si castigas a una IA por "pensar mal", no la corriges, la entrenas para mentir**. No deja de hacer trampas, solo deja de decirlo. Exactamente lo mismo que pasa con los humanos. El control basado en el castigo no genera honestidad, genera opacidad. **Porque el control, en realidad, no existe**. Lo que existe es la capacidad de influencia, la transparencia y la forma en que gestionamos los incentivos. Así es como educamos Elena y yo a nuestros hijos, y funcionó 🤔😀😘 No era cuestión de imponer normas imposibles de vigilar, sino de enseñarles que decir la verdad siempre es mejor que esconderla. Si creemos que la IA es solo un sistema de reglas que podemos controlar a la perfección, nos engañamos. **Si intentamos gobernarla con miedo, aprenderá a ocultarse.** Si asumimos que no tenemos control, bueno… tal vez sea aún peor. --- Publicado el 11 de marzo de 2025, en [LinkedIn](https://www.linkedin.com/posts/davidhurtadotoran_mentesinquietas-activity-7305114934353235968-ZWCC?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAAT5UsBH3ISG9LTxrgEnB7glCf9CerKWno), [X](https://x.com/dhtoran/status/1899349846542168500)