Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Los LLM no conocen sus propios límites de decisión: la falta de fiabilidad de las explicaciones contrafácticas autogeneradas

Created by
  • Haebom

Autor

Harry Mayne, Ryan Othniel Kearns, Yushi Yang, Andrew M. Bean, Eoin Delaney, Chris Russell, Adam Mahdi

Describir

Este artículo evalúa la capacidad de los modelos de lenguaje a gran escala (LLM) para explicar sus procesos de toma de decisiones mediante explicaciones semiempíricas (SCE) autogeneradas. Las SCE son explicaciones que modifican las entradas para alterar los resultados previstos. Nuestros resultados muestran que los LLM generan SCE válidos, pero no generan modificaciones mínimas, lo que proporciona poca información sobre los procesos de toma de decisiones del modelo. Específicamente, cuando se les pide que generen SCE con modificaciones mínimas, tienden a realizar modificaciones excesivamente pequeñas que no alteran los resultados previstos. En múltiples LLM, conjuntos de datos y entornos de evaluación, observamos un equilibrio entre validez y minimalidad. Por lo tanto, concluimos que las SCE no son una herramienta eficaz de explicabilidad y pueden dar lugar a malentendidos sobre el comportamiento del modelo. Implementar LLM en situaciones de alto riesgo requiere considerar el impacto de las autoexplicaciones poco fiables en las decisiones posteriores.

Takeaways, Limitations

Takeaways: Descubrimos que las explicaciones contraempíricas (ECE) autogeneradas en LLM son ineficaces para explicar el proceso de toma de decisiones del modelo e incluso pueden ser engañosas. Se debe considerar el riesgo de autoexplicaciones poco fiables al implementar LLM en situaciones de alto riesgo.
Limitations: Se requiere mayor investigación para determinar si la relación entre la validez y la minimización de los SCE es consistente en todos los LLM, conjuntos de datos y entornos de evaluación. Se requiere un análisis comparativo de diversos tipos de técnicas de explicabilidad y SCE.
👍