Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Qué preguntarías al ver por primera vez $a^2+b^2=c^2$? Evaluación de la Maestría en Derecho (LLM) sobre preguntas basadas en la curiosidad.

Created by
  • Haebom

Autor

Shashidhar Reddy Javaji, Zining Zhu

Describir

En este artículo, proponemos un nuevo marco para evaluar la capacidad de los modelos lingüísticos a gran escala (LLM) para adquirir nuevos conocimientos. El marco simula a un ser humano curioso que se encuentra con una oración que introduce conocimiento científico, induciendo al LLM a generar preguntas por primera vez. Evaluamos el potencial de adquisición de conocimiento del LLM evaluando la calidad de las preguntas generadas y validamos la validez del procedimiento de puntuación mediante un estudio de eliminación controlada. Generamos un conjunto de datos sintéticos que consta de 1101 oraciones de diversa dificultad en física, química y matemáticas, 300 oraciones de conocimiento general y 567 oraciones incorrectas, y validamos la validez de la evaluación del modelo mediante una evaluación humana (kappa de Cohen ponderada de aproximadamente 0,7). Observamos que, si bien los modelos grandes como GPT-4 y Mistral 8x7b son hábiles para generar preguntas consistentes y relevantes, el modelo Phi-2, más pequeño, es igual o más efectivo. Esto sugiere que el tamaño del modelo no es el único factor que determina el potencial de adquisición de conocimiento. El marco propuesto cuantifica características importantes del modelo que anteriormente se habían pasado por alto y presenta oportunidades de investigación para desarrollar sistemas de IA más ricos en conocimiento.

Takeaways, Limitations

Takeaways:
Un nuevo marco para evaluar la capacidad de los LLM para adquirir nuevos conocimientos
Revela que el tamaño del modelo no es el único factor que determina el potencial de adquisición de conocimientos
Presentamos una nueva dirección de investigación para desarrollar sistemas de IA ricos en conocimiento
Presentar una forma eficaz de evaluar indirectamente la capacidad de adquisición de conocimientos a través de la capacidad de generación de preguntas del LLM
Limitations:
Se necesita más investigación sobre la generalización del conjunto de datos sintéticos presentado.
Necesidad de verificar la aplicabilidad del marco a diferentes tipos de conocimientos y tareas.
Existen limitaciones en los resultados de la evaluación debido a la subjetividad de la evaluación humana.
El marco actual se centra en la calidad de las preguntas, por lo que puede que no refleje plenamente la capacidad de adquirir y utilizar el conocimiento real.
👍