Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Explicaciones multinivel para modelos de lenguaje generativo

Created by
  • Haebom

Autor

Lucas Monteiro Paes, Dennis Wei, Hyo Jin Do, Hendrik Strobelt, Ronny Luss, Amit Dhurandhar, Manish Nagireddy, Karthikeyan Natesan Ramamurthy, Prasanna Sattigeri, Werner Geyer, Soumya Ghosh

Describir

En este artículo, proponemos Explicaciones Multinivel para Modelos de Lenguaje Generativos (MExGen) para comprender mejor el proceso de generación de respuestas de los modelos de lenguaje a gran escala (LLM) utilizados en tareas contextuales (como resúmenes y respuestas a preguntas). MExGen cuantifica la influencia de cada parte del contexto en la salida del modelo mediante la asignación de una puntuación, y extiende métodos de atribución existentes, como LIME y SHAP, a los LLM utilizados en tareas contextuales donde el coste de inferencia es elevado, el texto de entrada es extenso y la salida es textual. Mediante evaluaciones automatizadas y manuales en tareas de resumen y respuestas a preguntas, demostramos que proporciona explicaciones más fiables que los métodos existentes y las autoexplicaciones de los LLM. Publicamos el código de MExGen como parte del kit de herramientas ICX360.

Takeaways, Limitations

Takeaways:
Mejore su comprensión del proceso de generación de respuestas de LLM
Aumentar la explicabilidad del LLM en tareas basadas en el contexto
Superar las limitaciones de los métodos de atribución existentes y proporcionar explicaciones mejoradas
Mayor facilidad de investigación y uso mediante la divulgación de código abierto
Limitations:
Ausencia de discusión de Limitations específico (no mencionado explícitamente en el documento)
Se necesitan más investigaciones para determinar la generalización del método propuesto.
Se necesitan más experimentos en diferentes LLM y trabajos
👍