[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Saber o no: una biblioteca para evaluar la robustez de la base fuera del conocimiento

Created by
  • Haebom

Autor

Jessica Foo, Pradyumna Shyama Prasad, Shaun Khoo

Describir

En este artículo, presentamos una novedosa metodología de evaluación para abordar el problema de alucinación de los modelos de lenguaje a gran escala (LLM), especialmente al responder preguntas fuera de la base de conocimiento en el entorno de generación aumentada (RAG). Presentamos knowornot, una biblioteca de código abierto que permite la evaluación automatizada en lugar de la anotación manual tradicional, y demostramos que puede utilizarse para evaluar sistemáticamente la robustez de los LLM fuera de la base de conocimiento (OOKB). knowornot facilita el desarrollo de datos y procesos de evaluación personalizados, y proporciona características como una API unificada, una arquitectura modular, un modelado de datos riguroso y diversas herramientas definidas por el usuario. Demostramos la utilidad de knowornot mediante el desarrollo de un punto de referencia llamado PolicyBench, que incluye cuatro chatbots de respuesta a preguntas relacionados con políticas gubernamentales. El código fuente de knowornot está disponible en GitHub.

Takeaways, Limitations

Takeaways:
Proporcionamos una metodología novedosa y una herramienta de código abierto (knowornot) para evaluar la robustez de OOKB en el problema de alucinación de LLM, especialmente en el entorno RAG.
Evaluación automatizada de la robustez de OOKB sin anotación manual.
Proporcionar una plataforma flexible y escalable con capacidades de personalización.
Demostrando la utilidad de knowornot a través de puntos de referencia del mundo real (PolicyBench).
Limitations:
Se necesitan estudios experimentales y comparativos más amplios sobre el rendimiento y la eficiencia de knowornot.
PolicyBench está limitado a políticas gubernamentales, por lo que es necesario verificar su generalización a otros dominios.
Puede haber un aspecto subjetivo en la definición y medición de las alucinaciones.
Se necesitan más investigaciones para aumentar la objetividad y confiabilidad de la evaluación.
👍