Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
HiPhO: ¿Qué tan lejos están los (M)LLM de los humanos en el último punto de referencia de las Olimpiadas de Física de la escuela secundaria?
Created by
Haebom
Autor
Fangchen Yu, Haiyuan Wan, Qianjia Cheng, Yuchen Zhang, Jiacheng Chen, Fujun Han, Yulun Wu, Junchi Yao, Ruilizhen Hu, Ning Ding, Yu Cheng, Tao Chen, Lei Bai, Dongzhan Zhou, Yun Luo, Ganqu Cui, Peng Ye
Describir
Este artículo presenta HiPhO, un nuevo punto de referencia basado en problemas de las Olimpiadas de Física de secundaria. HiPhO abarca 13 exámenes de las Olimpiadas recientes (2024-2025), abarcando una amplia gama de tipos de problemas, desde los basados en texto hasta los basados en diagramas. Califica los problemas y las soluciones paso a paso, utilizando criterios de juicio humano, y otorga medallas de oro, plata y bronce según el rendimiento del modelo, lo que permite realizar comparaciones directas con participantes humanos. Una evaluación de 30 programas de maestría en línea (LLM) de vanguardia revela que la mayoría de los MLLM de código abierto no alcanzan el bronce, mientras que algunos LLM de código abierto muestran progreso, logrando medallas de oro. Los MLLM de inferencia de forma cerrada, si bien alcanzan entre 6 y 12 medallas de oro, aún están muy lejos de la puntuación perfecta.
Takeaways, Limitations
•
Takeaways:
◦
Presentamos HiPhO, el primer punto de referencia de evaluación centrado en el ser humano basado en la Olimpiada de física de la escuela secundaria.
◦
Demuestra claramente la diferencia en las capacidades de razonamiento físico entre los modelos de código abierto y los cerrados.
◦
(M) Presentando un nuevo estándar para mejorar la capacidad de razonamiento físico de LLM.
◦
Amplia gama de evaluaciones posibles, incluidos varios tipos de problemas de física.
◦
El rendimiento del modelo se puede comparar directamente con el de los participantes humanos.
•
Limitations:
◦
El número y tipo de exámenes de Olimpiada incluidos en el índice de referencia pueden ser limitados.
◦
Puede resultar difícil alinearse perfectamente con los criterios de evaluación humanos.
◦
Puede que no esté claro si la ventaja de rendimiento de un modelo cerrado se debe a las capacidades del modelo en sí o a diferencias en la accesibilidad a los datos y las estrategias de aprendizaje.
◦
Todavía hay una brecha importante para lograr una puntuación perfecta.