Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Explicaciones multinivel para modelos de lenguaje generativo
Created by
Haebom
Autor
Lucas Monteiro Paes, Dennis Wei, Hyo Jin Do, Hendrik Strobelt, Ronny Luss, Amit Dhurandhar, Manish Nagireddy, Karthikeyan Natesan Ramamurthy, Prasanna Sattigeri, Werner Geyer, Soumya Ghosh
Describir
En este artículo, proponemos Explicaciones Multinivel para Modelos de Lenguaje Generativos (MExGen) para comprender mejor el proceso de generación de respuestas de los modelos de lenguaje a gran escala (LLM) utilizados en tareas contextuales (como resúmenes y respuestas a preguntas). MExGen cuantifica la influencia de cada parte del contexto en la salida del modelo mediante la asignación de una puntuación, y extiende métodos de atribución existentes, como LIME y SHAP, a los LLM utilizados en tareas contextuales donde el coste de inferencia es elevado, el texto de entrada es extenso y la salida es textual. Mediante evaluaciones automatizadas y manuales en tareas de resumen y respuestas a preguntas, demostramos que proporciona explicaciones más fiables que los métodos existentes y las autoexplicaciones de los LLM. Publicamos el código de MExGen como parte del kit de herramientas ICX360.
Takeaways, Limitations
•
Takeaways:
◦
Mejore su comprensión del proceso de generación de respuestas de LLM
◦
Aumentar la explicabilidad del LLM en tareas basadas en el contexto
◦
Superar las limitaciones de los métodos de atribución existentes y proporcionar explicaciones mejoradas
◦
Mayor facilidad de investigación y uso mediante la divulgación de código abierto
•
Limitations:
◦
Ausencia de discusión de Limitations específico (no mencionado explícitamente en el documento)
◦
Se necesitan más investigaciones para determinar la generalización del método propuesto.
◦
Se necesitan más experimentos en diferentes LLM y trabajos