5 de marzo de 2025
## Intro
Es fascinante lo que se puede hacer con IA generativa. Desde hace tiempo tengo la sensación de que los **benchmarks de IA no son buenos**, porque se enfocan en lo que es **fácil de medir**: métricas discretas en tests conocidos. Pero no miden lo que realmente importa y aún no sabemos cómo cuantificar: **empatía, creatividad, pragmática** (cómo el contexto influye en el significado), etc.
Así que le pedí a Máquina una investigación sobre el tema. **Como siempre, el resultado es brutal.** Está a medio camino entre una investigación científica real y lo que yo podría haber hecho en un par de días. Pero a Máquina le ha tomado **6 minutos y 26 fuentes**. En el tiempo que dura un café, la investigación estaba lista y yo ya me la había leído. **He aprendido un montón.**
> Pero el estudio no lo es todo. Ahora viene lo realmente bueno: **la conversación que voy a tener con Máquina sobre esto**. Ahí es donde de verdad voy a entender el tema en profundidad. Y algo me dice que la charla va a ser larga.
Como siempre, os dejo el **prompt** al final.
# 29 - Limitaciones de los Benchmarks Actuales en IA Generativa

En la evaluación de modelos de IA generativa, los benchmarks tradicionales presentan importantes **lagunas** en las capacidades que miden. Si bien han impulsado el progreso en tareas definidas, cada vez es más evidente que **no capturan habilidades cruciales** como el uso avanzado del lenguaje en contextos complejos, la empatía o la creatividad. A continuación, analizamos qué aspectos quedan fuera de las métricas actuales, por qué son difíciles de cuantificar, las críticas recientes de la comunidad académica al respecto y cómo esta falta de medición afecta la evolución de la IA.
## 1. Capacidades no medidas por los benchmarks actuales
**Habilidades lingüísticas avanzadas y comprensión del contexto:** Muchos benchmarks se centran en tareas cerradas (ej. responder preguntas factuales, traducir frases) y evalúan con métricas simples (exactitud, BLEU, etc.). Esto **no evalúa plenamente el manejo avanzado del lenguaje** – por ejemplo, entender humor, sarcasmo, metáforas, o mantener coherencia en un diálogo largo. Los modelos pueden obtener puntajes altos con un entendimiento **“superficial”** del lenguaje, aprovechando patrones estadísticos sin una comprensión profunda ([Challenges and Opportunities in NLP Benchmarking](https://www.ruder.io/nlp-benchmarking/#:~:text=However%2C%20the%20traditional%20practices%20for,indicators%20of%20progress%20going%20forward)). En particular, aspectos **pragmáticos** del lenguaje (leer intenciones implícitas, sentido contextual, referencias indirectas) suelen quedar fuera. Investigaciones recientes señalan que, aunque los LLM exhiben buena comprensión semántica, **“a menudo tienen dificultades para entender la pragmática”** del lenguaje ([PUB: A Pragmatics Understanding Benchmark for Assessing LLMs’ Pragmatics Capabilities](https://arxiv.org/html/2401.07078v1#:~:text=LLMs%20have%20demonstrated%20remarkable%20capability,models%20varying%20in%20the%20number)). Esto implica que tareas como inferir significados implícitos o seguir normas conversacionales no están bien cubiertas en los tests actuales.
**Empatía e inteligencia emocional:** La capacidad de un modelo para responder con empatía, reconocer emociones humanas y mostrar tacto es cada vez más importante en sistemas conversacionales. Sin embargo, **los benchmarks convencionales prácticamente no miden la empatía** o la inteligencia emocional. La mayoría evalúa contenido **cognitivo** (factualidad, razonamiento lógico) pero no la adecuación emocional de las respuestas. Trabajos recientes destacan que la evaluación **global** de la inteligencia emocional en LLMs “sigue poco investigada” y que las evaluaciones existentes son ad hoc y **subjetivas**, sin un marco unificado ([](https://aclanthology.org/2024.findings-acl.128.pdf#:~:text=whether%20an%20LLM%20generate%20empathetic,types%20of%20responses%20in%20different)). En consecuencia, un modelo puede puntuar alto en traducción o QA pero generar respuestas poco empáticas o inapropiadas emocionalmente, y eso no penaliza su desempeño en los rankings estándar.
**Creatividad y pensamiento original:** Otro aspecto ausente es la **creatividad** en las respuestas generativas. Los grandes modelos de lenguaje pueden producir texto creativo (por ejemplo, cuentos, chistes, poesías), pero las métricas habituales no reflejan _qué tan creativo u original_ es el contenido. Un modelo entrenado para maximizar la probabilidad de texto típico tenderá a respuestas convencionales, y actualmente no pierde puntos por **falta de originalidad**. De hecho, se ha señalado que los LLM han demostrado creatividad en ciertas tareas, **“pero los métodos para evaluarla son inadecuados”**, requiriendo mediciones multidimensionales más allá de la exactitud ([Assessing and Understanding Creativity in Large Language Models](https://arxiv.org/html/2401.12491v1#:~:text=language%20model%20,dimensional%20measurement%20while%20balancing)). La creatividad es difícil de capturar con un número: una misma tarea de escritura creativa puede tener múltiples soluciones válidas, y la _novedad_ o _ingenio_ de la salida es algo que los benchmarks numéricos actuales no aprecian.
**Razonamiento de sentido común y comprensión holística:** Aunque existen conjuntos para _commonsense_ (p. ej. Winograd schemas, COPA), muchos benchmarks no integran verdaderas pruebas de **sentido común pragmático** o de _theory of mind_. Por ejemplo, entender intenciones ocultas de un hablante o prever consecuencias sociales requiere una comprensión holística que va más allá de extraer la respuesta literal de un texto. Varios investigadores han propuesto baterías especializadas de pruebas de teoría de la mente, inferencia emocional y razonamiento pragmático para LLMs ([Comparing Humans and Large Language Models on an ...](https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00674/122721/Comparing-Humans-and-Large-Language-Models-on-an#:~:text=We%20present%20EPITOME%3A%20a%20battery,emotional%20inference%2C%20and%20pragmatic%20reasoning)), justamente porque estos **aspectos no estaban cubiertos** en los benchmarks populares. En resumen, las capacidades de **interpretar el mundo más allá del texto explícito**, adaptarse al contexto y responder de forma humanamente plausible son habilidades críticas de la IA generativa actual que **no están siendo bien medidas** por las evaluaciones predominantes ([Beyond the Imitation Game Benchmark](http://arxiv.org/pdf/2206.04615#:~:text=First%2C%20many%20benchmarks%20have%20restricted,2017%3B%20Kwiatkowski%20et)) ([Beyond the Imitation Game Benchmark](http://arxiv.org/pdf/2206.04615#:~:text=2016%29,the%20breadth%20of%20current%20capabilities)).
_¿Por qué quedan fuera estos aspectos?_ Principalmente porque los benchmarks tradicionales fueron diseñados para tareas acotadas y objetivamente evaluables. Tienden a **“restringir su alcance”** a una habilidad por vez (traducción, resumen, QA), con datos etiquetados para una respuesta correcta, lo que deja por fuera la amplitud de capacidades que tienen los modelos modernos ([Beyond the Imitation Game Benchmark](http://arxiv.org/pdf/2206.04615#:~:text=First%2C%20many%20benchmarks%20have%20restricted,2017%3B%20Kwiatkowski%20et)). Además, a menudo se enfocan en lo que los modelos **ya saben hacer bien** (por ejemplo, comprensión literal), en lugar de desafíos abiertos donde podrían exhibir creatividad o fallar en empatía ([Beyond the Imitation Game Benchmark](http://arxiv.org/pdf/2206.04615#:~:text=few%20capabilities%20on%20which%20language,2019%3B%20Rajpurkar%20et%20al)) ([Beyond the Imitation Game Benchmark](http://arxiv.org/pdf/2206.04615#:~:text=2016%29,the%20breadth%20of%20current%20capabilities)). Estas habilidades avanzadas son difíciles de encapsular en un conjunto estático de preguntas-respuestas, por lo que históricamente no se incluyeron en los “telescopios” de benchmarks con los que la comunidad ha mirado el progreso de la IA.
## 2. Dificultades técnicas y conceptuales en medir estas capacidades
Evaluar formalmente cualidades como la creatividad o la empatía **no es trivial**, y existen diversas barreras:
- **Subjetividad y falta de referencia única:** A diferencia de la clasificación o la respuesta exacta, en las tareas generativas abiertas puede haber múltiples salidas correctas o aceptables. Esto hace que la evaluación sea ambigua: ¿cómo puntuar objetivamente la empatía de una respuesta o la creatividad de un cuento? Incluso entre humanos hay variabilidad al juzgar estas cualidades. Las evaluaciones automáticas tradicionales (BLEU, ROUGE, etc.) comparan con respuestas de referencia, pero en generación abierta **cada respuesta puede ser única**. Como señalan expertos, el espacio de salidas en generación de texto es **“vasto y abierto, con múltiples respuestas válidas para una misma entrada”**, lo que dificulta aplicar métricas estándar de coincidencia ([Overcoming evaluation challenges in text generation | Flow AI](https://www.flow-ai.com/blog/llm-evaluation-overcoming-evaluation-challenges-in-text-generation#:~:text=In%20contrast%2C%20text%20generation%20involves,as%20matching%20labels%20in%20classification)) ([Overcoming evaluation challenges in text generation | Flow AI](https://www.flow-ai.com/blog/llm-evaluation-overcoming-evaluation-challenges-in-text-generation#:~:text=Evaluation%20Example%20Task%20Text%20Classification,Complex%2C%20subjective%2C%20multiple%20valid%20outputs)). Por ejemplo, una descripción creativa no coincidirá con ninguna referencia aunque sea válida, obteniendo bajo puntaje BLEU a pesar de su calidad. De igual modo, la **empatía** o el tono apropiado son propiedades de las que no existe _ground truth_ objetivo, sino evaluaciones subjetivas (¿el modelo sonó empático o no?).
- **Necesidad de evaluación humana escalable:** Debido a la subjetividad, con frecuencia la **última instancia** es la evaluación humana – jueces que puntúen la empatía, la coherencia narrativa o la originalidad. Sin embargo, esto es **lento, costoso y poco escalable** ([Overcoming evaluation challenges in text generation | Flow AI](https://www.flow-ai.com/blog/llm-evaluation-overcoming-evaluation-challenges-in-text-generation#:~:text=Given%20the%20open,which%20is%20impractical%20and%20costly)). Se requieren muchos anotadores expertos o participantes para juzgar miles de muestras, introduciendo además sesgos humanos. En campos como el procesamiento del lenguaje natural conversacional, se reconoce que **“la evaluación humana es esencial”** para diálogos o chatbots, pero no puede emplearse para el _ciclo diario_ de desarrollo de modelos a gran escala ([Overcoming evaluation challenges in text generation | Flow AI](https://www.flow-ai.com/blog/llm-evaluation-overcoming-evaluation-challenges-in-text-generation#:~:text=Given%20the%20open,which%20is%20impractical%20and%20costly)) ([Overcoming evaluation challenges in text generation | Flow AI](https://www.flow-ai.com/blog/llm-evaluation-overcoming-evaluation-challenges-in-text-generation#:~:text=The%20difficulty%20of%20evaluation%20varies,not%20just%20specific%20to%20Flowrite)). Esta barrera práctica lleva a los investigadores a seguir usando métricas automáticas más simples, pese a sus limitaciones, porque son reproducibles y baratas – aun si no reflejan bien las cualidades mencionadas.
- **Definición y operacionalización complejas:** Conceptos como _creatividad_ o _empatía_ no tienen una definición única y cuantificable. En psicología, por ejemplo, la creatividad se evalúa con pruebas divergentes (p.ej., _Tests de Torrance_) que califican originalidad, fluidez y elaboración en las respuestas de una persona. Trasladar esto a IA implica decidir **qué señales textuales representan creatividad** y cómo medirlas numéricamente. Algunos investigadores han tratado de adaptar esas pruebas humanas: por ejemplo, **aplicar una versión de los tests de Torrance a LLMs** para medir fluidez, flexibilidad, originalidad y elaboración en tareas creativas ([Assessing and Understanding Creativity in Large Language Models](https://arxiv.org/html/2401.12491v1#:~:text=accuracy%20and%20efficiency,that%20the%20creativity%20of%20LLMs)). Aun así, equilibrar criterios múltiples en una sola “puntuación de creatividad” es difícil. Lo mismo ocurre con la empatía: en inteligencia emocional humana se usan test situacionales y se obtienen puntajes en distintas ramas (percepción emocional, manejo emocional, etc.) ([](https://aclanthology.org/2024.findings-acl.128.pdf#:~:text=of%20emotional%20intelligence%20has%20been,2003)). Crear un **benchmark análogo para IA** requiere reunir escenarios emocionales realistas, tener evaluadores expertos en emociones y acordar cómo sumarizar la _inteligencia emocional_ del modelo en escalas numéricas. Es un desafío metodológico grande y explica por qué se ha evitado históricamente.
- **Limitaciones de las métricas automáticas actuales:** Las métricas cuantitativas existentes suelen correlacionar pobremente con estas cualidades. Por ejemplo, un estudio de FlowAI reportó que intentar usar métricas como BLEURT (basadas en aprendizaje) para capturar calidad en textos generados **fracasó con baja correlación respecto a juicios humanos**, obligando a volver a la revisión manual ([Overcoming evaluation challenges in text generation | Flow AI](https://www.flow-ai.com/blog/llm-evaluation-overcoming-evaluation-challenges-in-text-generation#:~:text=We%20attempted%20to%20create%20automatic,Consequently%2C%20we)). Muchas métricas automáticas se enfocan en similitud con texto de referencia o en propiedades superficiales (longitud, lexicon), que no necesariamente corresponden a **pragmatismo o creatividad**. Además, ciertos comportamientos deseables son difíciles de medir en **tiempo real**: por ejemplo, la **coherencia a largo plazo** en una historia requiere leer todo el texto para ver si tiene consistencia global; la **personalidad o estilo** en las respuestas requeriría comparar distribuciones de rasgos, etc. Estas evaluaciones complejas no se prestan a una fórmula sencilla, representando una barrera técnica.
- **Inspiración de otras áreas:** En otros campos se han intentado aproximaciones para evaluar inteligencias no convencionales, pero con sus propios retos. Por ejemplo, en robótica e IA general se plantean entornos simulados donde se evalúa adaptación y aprendizaje (ej. desafíos en videojuegos o entornos 3D), pero trasladar eso a habilidades lingüísticas sociales es complicado. En evaluación humana, pruebas de _teoría de la mente_ o _juicio moral_ podrían inspirar benchmarks para IA, pero requieren diseñar historias o dilemas y ver si el modelo responde como un humano razonaría – algo explorado en estudios recientes de ToM con LLMs ([Comparing Humans and Large Language Models on an ...](https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00674/122721/Comparing-Humans-and-Large-Language-Models-on-an#:~:text=We%20present%20EPITOME%3A%20a%20battery,emotional%20inference%2C%20and%20pragmatic%20reasoning)). No obstante, cada avance en esta dirección suele requerir **mucho esfuerzo de diseño de datos** y no siempre logra consenso en la comunidad sobre si realmente captura la habilidad buscada.
El resumen de todo es que medir capacidades como creatividad, empatía o comprensión pragmática es difícil porque **no hay una “respuesta correcta” única ni un indicador fácil de computar**. Requiere combinar múltiples criterios, posiblemente involucrar juicios humanos, y acordar definiciones operativas claras – todos desafíos técnicos y conceptuales que explican por qué los benchmarks actuales han evitado estas aguas más profundas.
## 3. Críticas de la comunidad académica y propuestas alternativas
La **comunidad investigadora** ha reconocido crecientemente estas deficiencias en la evaluación de IA, y en los últimos años han surgido **críticas contundentes** junto con propuestas para mejorar los benchmarks:
- **Benchmarks “agotados” y performance engañoso:** Bowman y Dahl (2021) argumentaron que la evaluación en muchos problemas de NLP **“está rota”**, ya que sistemas poco fiables logran puntajes casi humanos en benchmarks estándares, dejando _poco margen_ para que sistemas realmente mejores demuestren su valor ([What Will it Take to Fix Benchmarking in Natural Language Understanding? - ACL Anthology](https://aclanthology.org/2021.naacl-main.385/#:~:text=Evaluation%20for%20many%20natural%20language,data%20collection%20does%20not%20meaningfully)). Señalan que modelos actuales explotan sesgos de conjuntos de datos y artefactos de anotación, obteniendo resultados inflados sin haber desarrollado verdadera comprensión. Este tipo de crítica subraya que **alcanzar rendimiento superhumano en un benchmark no significa que el modelo posea la habilidad general**; puede haber “hecho trampa” aprendiendo patrones específicos del conjunto. De hecho, se ha observado un patrón recurrente en NLP: se lanza un benchmark nuevo, los modelos rápidamente llegan a rendimiento máximo en uno o dos años, pero luego **fallan en ejemplos ligeramente fuera de distribución o casos adversariales** ([Dynabench: Rethinking Benchmarking in NLP](https://aclanthology.org/2021.naacl-main.324.pdf#:~:text=this%20paper%2C%20we%20argue%20that,tasks%2C%20illustrating%20these%20concepts%20and)). Kiela et al. (2021) al presentar _Dynabench_ enfatizan esto: los modelos lograban _accuracy_ sobresaliente en tareas estáticas pero _“fracasan en ejemplos sencillos de desafío y flaquean en escenarios del mundo real”_ ([Dynabench: Rethinking Benchmarking in NLP](https://aclanthology.org/2021.naacl-main.324.pdf#:~:text=this%20paper%2C%20we%20argue%20that,tasks%2C%20illustrating%20these%20concepts%20and)). En consecuencia, han propuesto que la recolección de datos y la evaluación sean _dinámicas_ (con modelos en el bucle creando contraejemplos) para forzar evaluaciones más robustas.
- **Alcance limitado de las benchmarks tradicionales:** Los creadores del benchmark **BIG-bench** (Beyond the Imitation Game) introdujeron su iniciativa precisamente resaltando que **los benchmarks de lenguaje actuales son insuficientes para comprender el verdadero comportamiento de los modelos** ([Beyond the Imitation Game Benchmark](http://arxiv.org/pdf/2206.04615#:~:text=1,For%20instance%2C%20benchmarks)). En su artículo (Srivastava et al., 2022) enumeran limitaciones claras: (1) el **escopio restringido** – muchas evaluaciones solo cubren una faceta estrecha (p.ej. comprensión de oraciones cortas, trivia, etc.) y no logran identificar capacidades _nuevas o inesperadas_ que emergen en modelos más potentes ([Beyond the Imitation Game Benchmark](http://arxiv.org/pdf/2206.04615#:~:text=First%2C%20many%20benchmarks%20have%20restricted,2017%3B%20Kwiatkowski%20et)) ([Beyond the Imitation Game Benchmark](http://arxiv.org/pdf/2206.04615#:~:text=2016%29,the%20breadth%20of%20current%20capabilities)); y (2) la **vida corta** de las benchmarks – una vez que un conjunto se “resuelve” (los modelos alcanzan rendimiento humano o superior), se tiende a abandonarlo y crear otro más difícil, en un ciclo de _“desafío-resolución-reemplazo”_ que dificulta medir progreso sostenido ([Beyond the Imitation Game Benchmark](http://arxiv.org/pdf/2206.04615#:~:text=Second%2C%20recent%20language,For%20instance%2C%20superhuman)). En otras palabras, se ha criticado que nos hemos concentrado en **ganar carreras de corta distancia** (benchmarks específicos) en lugar de fomentar habilidades duraderas. BIG-bench propone abordar esto recopilando **204 tareas muy diversas**, muchas diseñadas para estar _más allá_ de lo que los LLM podían hacer en su momento, incluyendo problemas de **sentido común, matemáticas complejas, lingüística teórica, razonamiento social,** e incluso tareas de creatividad y sentido del humor. Este esfuerzo colaborativo (más de 400 autores) buscó justamente **ampliar el espacio de evaluación** para cubrir habilidades no medidas antes. Sus primeros resultados mostraron que incluso modelos como GPT-3 enfrentaban grandes brechas frente a humanos en muchas tareas, revelando debilidades ocultas.
- **Llamados a una evaluación más holística:** Varios académicos prominentes han abogado por cambiar la forma en que evaluamos. Por ejemplo, **Rada Mihalcea** ha instado a _“dejar de enfocarse solo en la precisión”_ y considerar múltiples aspectos relevantes en escenarios reales ([Challenges and Opportunities in NLP Benchmarking](https://www.ruder.io/nlp-benchmarking/#:~:text=evaluation,is%20important%20in%20a%20particular)). En la conferencia ACL 2021 se organizó un taller específico sobre _“Benchmarking: pasado, presente y futuro”_, reflejando la preocupación general. Investigadores como **Ethayarajh & Jurafsky (2020)** o **Birhane et al. (2022)** han señalado que los benchmarks actuales **encarnan valores y sesgos**: optimizar solo la métrica numérica puede ignorar dimensiones como equidad, robustez o impacto social ([](http://arxiv.org/pdf/2211.09110#:~:text=Benchmarks%20orient%20AI,technology%20and%20influence%20its%20trajectory)). En respuesta, se han propuesto marcos de **evaluación multifacética**. Un ejemplo es el trabajo de **Holistic Evaluation of Language Models (HELM)** de Stanford, que sugiere evaluar a los LLM en una amplia gama de **escenarios** y con múltiples **métricas** por escenario ([](http://arxiv.org/pdf/2211.09110#:~:text=We%20believe%20holistic%20evaluation%20involves,3)) ([](http://arxiv.org/pdf/2211.09110#:~:text=make%20explicit%20all%20the%20major,specific%20system)). HELM enfatiza tres elementos: (1) **cobertura amplia** (probar el modelo en muchas situaciones distintas, reconociendo que siempre habrá aspectos no cubiertos), (2) **medición multi-métrica** (no solo exactitud: también robustez, calibración, imparcialidad, eficiencia, etc. según el caso), y (3) **estandarización** para comparar modelos en igualdad de condiciones ([](http://arxiv.org/pdf/2211.09110#:~:text=2.%20Multi,adapting%20an%20LM%20to%20a)). Esta clase de enfoque holístico está directamente motivada por las deficiencias observadas en evaluaciones fragmentarias.
- **Benchmarks para empatía, creatividad, etc.:** Como se mencionó, la propia comunidad ha comenzado a **desarrollar benchmarks especializados** para aquellas habilidades ausentes. Por ejemplo, recientemente se propuso **EmotionQueen** como un benchmark para medir la **empatía y comprensión emocional** en diálogos ([](https://aclanthology.org/2024.findings-acl.128.pdf#:~:text=propose%20an%20evaluation%20benchmark%20named,of%20similar%20importance%20expressed%20in)) ([](https://aclanthology.org/2024.findings-acl.128.pdf#:~:text=to%20make%20empathetic%20responses%20aiming,including%20four%20distinct%20tasks%20for)). Incluye tareas de reconocer emociones implícitas, responder con apoyo emocional, etc., con nuevas métricas (PASS y WIN rate) para cuantificar qué tan empático es un modelo en sus respuestas. De modo similar, se han publicado pruebas de **creatividad adaptando los tests de Torrance** para evaluar originalidad en LLMs ([Assessing and Understanding Creativity in Large Language Models](https://arxiv.org/html/2401.12491v1#:~:text=accuracy%20and%20efficiency,that%20the%20creativity%20of%20LLMs)). Incluso en pragmática, el dataset **PUB (Pragmatics Understanding Benchmark)** reúne tareas de implicaturas, presuposiciones y referencias para medir la capacidad de entender significados no literales ([PUB: A Pragmatics Understanding Benchmark for Assessing LLMs’ Pragmatics Capabilities](https://arxiv.org/html/2401.07078v1#:~:text=LLMs%20have%20demonstrated%20remarkable%20capability,tuning%20for)) ([PUB: A Pragmatics Understanding Benchmark for Assessing LLMs’ Pragmatics Capabilities](https://arxiv.org/html/2401.07078v1#:~:text=there%20is%20a%20noticeable%20performance,world%20language%20tasks)). Estas iniciativas, a menudo en forma de artículos de conferencia o preprints (ACL, arXiv 2023-2024), son un reconocimiento explícito de que _faltaban_ dichas evaluaciones. Aunque todavía en etapas iniciales, representan **soluciones alternativas** que la academia propone: ampliar el conjunto de métricas y tareas para reflejar mejor las capacidades avanzadas de la IA generativa.
La comunidad científica ha realizado un **mea culpa** sobre la obsesión por benchmarks simplistas. Numerosas publicaciones recientes subrayan que se necesita ir _“más allá del leaderboard”_. Las soluciones pasan por: **benchmarks dinámicos** que impidan que los modelos hagan trampa memorizando (e.g. Dynabench ([Dynabench: Rethinking Benchmarking in NLP](https://aclanthology.org/2021.naacl-main.324.pdf#:~:text=this%20paper%2C%20we%20argue%20that,tasks%2C%20illustrating%20these%20concepts%20and))), **benchmarks extensos y diversificados** que cubran habilidades nuevas (BIG-bench ([Beyond the Imitation Game Benchmark](http://arxiv.org/pdf/2206.04615#:~:text=1,For%20instance%2C%20benchmarks))), **métricas aprendidas o multifactoriales** que correlacionen mejor con juicios humanos, e **inclusión de la evaluación humana** de manera sistemática en aspectos subjetivos (como hace GEM, un benchmark de NLG que combina métricas automáticas y anotaciones humanas ([GEM Benchmark](https://gem-benchmark.com/#:~:text=GEM%20Benchmark%20GEM%20is%20a,human%20annotations%20and%20automated%20Metrics))). La convergencia de voces es clara: los benchmarks deben evolucionar para **medir lo que realmente nos importa** en la inteligencia artificial, no solo lo que es fácil de puntuar.
## 4. Impacto de estas deficiencias en el desarrollo de la IA
La falta de medición de habilidades holísticas tiene consecuencias importantes en cómo evoluciona la IA generativa:
- **Optimización miope (“lo que no se mide, no mejora”):** Los modelos de IA se entrenan y ajustan para _optimizar métricas_. Si las métricas no incluyen creatividad, empatía o comprensión profunda, es menos probable que los modelos desarrollen espontáneamente esas capacidades. Existe el riesgo de **sobre-ajustar a lo que sí se cuantifica** (Goodhart acecha: _“lo que se mide, se optimiza”_). Por ejemplo, durante años los sistemas de diálogo se optimizaron para minimizar la _pérdida de entropía_ o maximizar aciertos simples, lo que les llevó a generar respuestas genéricas y seguras (“No lo sé”, “Entiendo”), ya que eso evitaba errores factuales y les daba buen puntaje promedio. Ese enfoque mejoraba la métrica superficialmente pero empobrecía la **calidad conversacional** (menos creatividad o personalidad). De modo análogo, un modelo puede alcanzar puntaje tope en un benchmark de QA **explotando atajos** en los datos, sin adquirir un entendimiento robusto; sin otro tipo de evaluación, los investigadores podrían no detectar esa fragilidad. Bowman et al. advierten que sistemas **no fiables pueden anotar resultados altos** en benchmarks, enmascarando la falta de verdadero progreso ([What Will it Take to Fix Benchmarking in Natural Language Understanding? - ACL Anthology](https://aclanthology.org/2021.naacl-main.385/#:~:text=Evaluation%20for%20many%20natural%20language,data%20collection%20does%20not%20meaningfully)). Así, la ausencia de métricas holísticas puede generar una **falsa sensación de logro** y dirigir la investigación por un camino de rendimiento inflado pero poco generalizable.
- **Incentivos desequilibrados en la investigación:** Históricamente, alcanzar el _state of the art_ en un benchmark conocido (GLUE, ImageNet, etc.) ha sido moneda de cambio para publicaciones y prestigio. Si esas tablas de líderes no reflejan ciertas habilidades, **los investigadores tienen menos incentivo para explorarlas**. Esto pudo haber retrasado, por ejemplo, avances en modelos más **creativos o empáticos**, ya que dedicar esfuerzos a ello no mejoraba las métricas estándar ni figuraba en los leaderboards. Algunos expertos señalan que la comunidad se enfocó en “ganar en pruebas concretas” en detrimento de perseguir **capacidades más generales** de la AI ([Beyond the Imitation Game Benchmark](http://arxiv.org/pdf/2206.04615#:~:text=First%2C%20many%20benchmarks%20have%20restricted,2017%3B%20Kwiatkowski%20et)) ([Beyond the Imitation Game Benchmark](http://arxiv.org/pdf/2206.04615#:~:text=2016%29,the%20breadth%20of%20current%20capabilities)). La buena noticia es que, al comenzar a discutirse estas carencias abiertamente (ver talleres ACL 2021, iniciativas como HELM 2022), los **incentivos están cambiando**: ahora se valora que un modelo sea más interpretable, menos sesgado o mejor en diálogo largo, incluso si esas cualidades no caben en una sola cifra de accuracy. Pero durante un tiempo, la falta de métricas sobre estas habilidades ciertamente limitó el foco de muchos proyectos.
- **Riesgos en aplicaciones reales:** Un impacto práctico es que modelos desarrollados con objetivos estrechos pueden fallar al desplegarlos en el mundo real, donde se necesitan las habilidades _no entrenadas_. Por ejemplo, un asistente de texto que ganó benchmarks de conocimiento puede dar recomendaciones **insensibles** o carentes de tacto porque nunca se midió su empatía durante el desarrollo. Del mismo modo, un generador de texto optimizado para alta coherencia local podría **carecer de creatividad**, resultando en contenido monótono que decepciona a usuarios en aplicaciones creativas (guiones, publicidad). La industria tecnológica ha visto casos en que sistemas aclamados por sus puntajes tuvieron que ser revisados al exhibir comportamientos no deseados no cubiertos en pruebas (desde sesgos hasta falta de “common sense”). **Ignorar ciertas habilidades retrasa su incorporación** en los modelos, y esas ausencias se hacen visibles cuando interactúan con usuarios o entornos complejos.
- **Progreso holístico más lento:** La evolución de la IA hacia sistemas más generales e _inteligentes_ en sentido amplio puede estar siendo frenada por nuestras herramientas de evaluación. Si solo medimos tareas delimitadas, los modelos se especializan en ellas y **no empujamos los límites** hacia una inteligencia más _humana_. Investigadores como Liang et al. sugieren que debemos _“evaluar los modelos en su totalidad”_ para realmente impulsar mejoras en entendimiento y capacidades sociales ([](http://arxiv.org/pdf/2211.09110#:~:text=myriad%20downstream%20scenarios,And)) ([](http://arxiv.org/pdf/2211.09110#:~:text=We%20believe%20holistic%20evaluation%20involves,of%20datasets%20such%20as%20SuperGLUE)). La falta de evaluación integral inicialmente significó que atributos como la **justificación de respuestas, la consistencia de personalidad o la sensibilidad cultural** quedaran relegados. Ahora, con preocupaciones crecientes sobre la **alineación** de la IA con valores humanos, se advierte que no medir empatía o juicio moral, por ejemplo, no solo afecta al modelo individual sino al rumbo del campo: podríamos estar creando sistemas poderosos pero con falta de “sabiduría” o “humanidad” porque _simplemente nunca lo exigimos en las métricas_. En otras palabras, lo que no se mide no forma parte de la definición de éxito, y durante mucho tiempo el éxito de los modelos de lenguaje se definió sin contemplar muchas de estas habilidades cualitativas.
En conjunto, la ausencia de ciertas métricas llevó a una **optimización parcial** de los modelos de IA generativa. Esto es análogo a entrenar a un atleta solo para velocidad y luego sorprenderse de que carece de resistencia o técnica: si solo cronometrábamos los sprints, no es extraño haber descuidado lo demás. Afortunadamente, la comunidad está reconociendo que para alcanzar sistemas de IA verdaderamente avanzados y confiables, **debemos medir y optimizar también las capacidades holísticas**. Los esfuerzos actuales en nuevas benchmarks y métricas más ricas buscan realinear el rumbo, de modo que la próxima generación de modelos no solo sea mejor en números, sino también más _inteligente_ en el sentido pleno de la palabra.
**Referencias utilizadas:**
- Ruder, S. _Challenges and Opportunities in NLP Benchmarking_ ([Challenges and Opportunities in NLP Benchmarking](https://www.ruder.io/nlp-benchmarking/#:~:text=However%2C%20the%20traditional%20practices%20for,indicators%20of%20progress%20going%20forward)) ([Challenges and Opportunities in NLP Benchmarking](https://www.ruder.io/nlp-benchmarking/#:~:text=evaluation,is%20important%20in%20a%20particular))
- Srivastava et al. _Beyond the Imitation Game Benchmark (BIG-bench)_ ([Beyond the Imitation Game Benchmark](http://arxiv.org/pdf/2206.04615#:~:text=First%2C%20many%20benchmarks%20have%20restricted,2017%3B%20Kwiatkowski%20et)) ([Beyond the Imitation Game Benchmark](http://arxiv.org/pdf/2206.04615#:~:text=Second%2C%20recent%20language,For%20instance%2C%20superhuman))
- Bowman & Dahl. _What Will it Take to Fix Benchmarking in NLU?_ ([What Will it Take to Fix Benchmarking in Natural Language Understanding? - ACL Anthology](https://aclanthology.org/2021.naacl-main.385/#:~:text=Evaluation%20for%20many%20natural%20language,data%20collection%20does%20not%20meaningfully))
- Kiela et al. _Dynabench: Rethinking Benchmarking in NLP_ ([Dynabench: Rethinking Benchmarking in NLP](https://aclanthology.org/2021.naacl-main.324.pdf#:~:text=this%20paper%2C%20we%20argue%20that,tasks%2C%20illustrating%20these%20concepts%20and))
- Li et al. _Emotionally Intelligent Chatbots (EmotionQueen Benchmark)_ ([](https://aclanthology.org/2024.findings-acl.128.pdf#:~:text=whether%20an%20LLM%20generate%20empathetic,types%20of%20responses%20in%20different))
- Chen et al. _Assessing and Understanding Creativity in LLMs_ ([Assessing and Understanding Creativity in Large Language Models](https://arxiv.org/html/2401.12491v1#:~:text=language%20model%20,dimensional%20measurement%20while%20balancing)) ([Assessing and Understanding Creativity in Large Language Models](https://arxiv.org/html/2401.12491v1#:~:text=accuracy%20and%20efficiency,that%20the%20creativity%20of%20LLMs))
- Settaluri et al. _Pragmatics Understanding Benchmark (PUB)_ ([PUB: A Pragmatics Understanding Benchmark for Assessing LLMs’ Pragmatics Capabilities](https://arxiv.org/html/2401.07078v1#:~:text=LLMs%20have%20demonstrated%20remarkable%20capability,models%20varying%20in%20the%20number))
- Flow AI Blog: _LLM evaluation — challenges in text generation_ ([Overcoming evaluation challenges in text generation | Flow AI](https://www.flow-ai.com/blog/llm-evaluation-overcoming-evaluation-challenges-in-text-generation#:~:text=In%20contrast%2C%20text%20generation%20involves,as%20matching%20labels%20in%20classification)) ([Overcoming evaluation challenges in text generation | Flow AI](https://www.flow-ai.com/blog/llm-evaluation-overcoming-evaluation-challenges-in-text-generation#:~:text=Given%20the%20open,which%20is%20impractical%20and%20costly))
- Liang et al. _Holistic Evaluation of Language Models (HELM)_ ([](http://arxiv.org/pdf/2211.09110#:~:text=myriad%20downstream%20scenarios,And)) ([](http://arxiv.org/pdf/2211.09110#:~:text=We%20believe%20holistic%20evaluation%20involves,3))
- Otras citas y fuentes relevantes indicadas en el texto.
# Prompt utilizado
Y aquí viene el hack: el prompt lo ha hecho Máquina. Yo solo le he dicho lo que quería y para qué lo quería. Le he pedido el prompt, y luego se lo he retroalimentado.
> [!example] Prompt de investigación: La utilidad y limitaciones de los benchmarks en modelos de IA generativa
> En los últimos años, los benchmarks han sido la referencia clave para medir el desempeño de los modelos de IA generativa. Sin embargo, cada vez hay más dudas sobre si realmente reflejan las capacidades más disruptivas de estos modelos o si, por el contrario, se limitan a evaluar aspectos fácilmente cuantificables, como la precisión en tareas matemáticas, generación de código o comprensión básica del lenguaje.
>
> El problema central parece ser que los benchmarks actuales están diseñados para medir aspectos discretos y objetivos, dejando fuera habilidades mucho más relevantes en la práctica, como:
>
> - **Manejo avanzado del lenguaje**: Entender y responder con matices, humor, ironía o pragmática avanzada.
> - **Empatía y psicología**: La capacidad de generar respuestas que demuestren comprensión emocional o influencia social.
> - **Creatividad real**: No solo generación de texto o imágenes, sino producción de ideas originales y resolución de problemas en contextos ambiguos.
>
> Además, hay una percepción creciente de que los benchmarks están **maquillados o sobreoptimizados**, con modelos diseñados específicamente para superar métricas determinadas en lugar de mejorar en capacidades generales. Muchas compañías anuncian mejoras en base a benchmarks que pueden no reflejar avances reales en aplicaciones del mundo real.
>
> Dado este contexto, quiero una **investigación profunda y actualizada** sobre:
>
> 1. **Limitaciones de los benchmarks actuales**: ¿Qué tipos de capacidades de IA no están siendo bien medidas? ¿Hay críticas desde la comunidad académica o técnica sobre su utilidad real?
> 2. **Ejemplos concretos de benchmarks problemáticos**: Casos donde un modelo supere un benchmark pero en la práctica tenga deficiencias evidentes.
> 3. **Nuevas formas de evaluación**: ¿Existen esfuerzos por medir habilidades más subjetivas o contextuales? ¿Cómo podríamos diseñar benchmarks que reflejen mejor las capacidades disruptivas de la IA generativa?
> 4. **Impacto en la competencia de modelos**: ¿Hasta qué punto las empresas están entrenando modelos para benchmarks en lugar de mejorar capacidades generales? ¿Hay evidencia de que los benchmarks se usan como herramienta de marketing más que como medición objetiva?
>
> Busco fuentes confiables, papers recientes, análisis de expertos y cualquier información relevante sobre el tema.
---
Publicado el 5 de marzo de 2025