Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Pruebas de consistencia basadas en el conocimiento de modelos lingüísticos grandes

Created by
  • Haebom

Autor

Sai Sathiesh Rajan, Ezekiel Soremekun, Sudipta Chattopadhyay

Describir

En este artículo, proponemos KonTest, un marco de pruebas automatizadas para identificar y medir sistemáticamente inconsistencias y lagunas de conocimiento en modelos de lenguaje a gran escala (LLM). KonTest aprovecha los grafos de conocimiento para generar casos de prueba y combina consultas semánticamente equivalentes con oráculos de prueba (oráculos transformacionales u ontológicos) para investigar y medir inconsistencias en el conocimiento del mundo del LLM. Además, mitiga las lagunas de conocimiento mediante un conjunto ponderado de modelos LLM. Los resultados experimentales con cuatro LLM de vanguardia (Falcon, Gemini, GPT3.5 y Llama2) muestran que KonTest generó 1917 entradas que inducen errores (19,2 %) de 9979 entradas de prueba, lo que resulta en una laguna de conocimiento del 16,5 % en todos los LLM probados. Un método de mitigación basado en el conjunto de pruebas de KonTest redujo la laguna de conocimiento del LLM en un 32,48 %. Estudios de ablación adicionales demuestran que la eficiencia de construcción de conocimiento de GPT3.5 es solo del 60-68%, lo que lo hace inadecuado para pruebas de consistencia basadas en conocimiento.

Takeaways, Limitations

Takeaways:
Presentamos un marco de pruebas automatizadas (KonTest) para medir y mitigar sistemáticamente inconsistencias y brechas de conocimiento en LLM.
Medir cuantitativamente la tasa de error real y la brecha de conocimiento de LLM a través de KonTest y presentar su tamaño.
Demostramos que la brecha de conocimiento en LLM se puede reducir significativamente utilizando un método de mitigación basado en KonTest.
Presentamos las características de los modelos que son adecuados y aquellos que no son adecuados para la prueba de consistencia basada en conocimientos de LLM.
Limitations:
La generación de casos de prueba de KonTest se basa en un gráfico de conocimiento, por lo que su rendimiento puede verse afectado por la integridad y precisión de dicho gráfico.
Los temas de prueba para los LLM son limitados, y se necesitan pruebas para una gama más amplia de LLM.
Se necesita más análisis para determinar por qué la eficiencia de construcción de conocimiento de GPT-3.5 es baja.
Se necesitan más investigaciones para determinar la generalización del método de mitigación.
👍