Introducción a la Evaluación de la Inteligencia Artificial
La pregunta sobre si los modelos de inteligencia artificial (IA) realmente superan la capacidad humana o si las pruebas actuales son demasiado fáciles para ellos es objeto de debate. Con el objetivo de evaluar los límites del conocimiento de la IA en las fronteras de la expertosía humana, Scale AI y el Centro para la Seguridad de la IA (CAIS) lanzaron «El Último Examen de la Humanidad» (HLE), una nueva benchmark académica.
Características del Examen
El examen consta de 3.000 preguntas de texto y multi-modales sobre más de 100 asignaturas, como matemáticas, ciencias y humanidades, presentadas por expertos en diversas áreas. Los investigadores de las dos organizaciones recopilaron más de 70.000 preguntas para HLE inicialmente, reduciéndolas a 13.000 que fueron revisadas por expertos humanos y luego destiladas nuevamente en las 3.000 preguntas finales.
Resultados Iniciales
Se probaron las preguntas en modelos de IA como OpenAI’s o1 y GPT-4o, Anthropic’s Claude 3.5 Sonnet, y Google’s Gemini 1.5 Pro, junto con las benchmarks MMLU, MATH y GPQA. Los resultados mostraron que los modelos actuales solo respondieron correctamente menos del 10 por ciento de las preguntas del benchmark HLE.
Implicaciones y Futuro
Los investigadores destacan que, aunque los modelos de IA han superado con creces ciertas benchmarks en el pasado, como el MMLU, donde muchos LLMs ahora obtienen más del 90 por ciento de acierto, todavía existen preguntas que los modelos no pueden responder. El cofundador y director ejecutivo de CAIS, Dan Hendrycks, señaló que la benchmark MATH, lanzada en 2021, inicialmente mostró que el mejor modelo obtenía menos del 10 por ciento de acierto, pero solo tres años después, los modelos lograron superar el 90 por ciento. Esto sugiere que, aunque los modelos de IA han mejorado significativamente, todavía hay un largo camino por recorrer en términos de entendimiento y conocimiento.
Conclusión
El lanzamiento de «El Último Examen de la Humanidad» marca un hito importante en la evaluación de la inteligencia artificial y su capacidad para superar la expertosía humana. Al proporcionar una benchmark más desafiante y alentando la contribución de expertos de diversas áreas, se busca entender mejor los límites de la IA y cómo puede ser mejorada. La disponibilidad del conjunto de datos para los investigadores permitirá un estudio más profundo de los sistemas de IA y sus limitaciones, contribuyendo así al avance de esta tecnología de manera responsable y segura.