Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Escalando la verdad: la paradoja de la confianza en la verificación de datos con IA

Created by
  • Haebom

Autor

Ihsan A. Qazi, Zohaib Khan, Abdullah Ghani, Agha A. Raza, Zafar A. Qazi, Wassay Sajjad, Ayesha Ali, Asher Javaid, Muhammad Abdullah Sohail, Abdul H. Azeemi

Describir

Este artículo evalúa sistemáticamente nueve modelos lingüísticos a gran escala (LLM) existentes utilizando 5000 afirmaciones evaluadas por 174 organizaciones expertas en verificación de datos en 47 idiomas. Los LLM se evalúan en diversas categorías (código abierto/cerrado, diversos tamaños, diversas arquitecturas y basados ​​en inferencias). Para comprobar la capacidad de generalización de los modelos, utilizamos cuatro estrategias de estímulo que reflejan las interacciones entre verificadores ciudadanos y expertos, y las afirmaciones generadas con posterioridad a los datos de entrenamiento. Con base en más de 240 000 anotaciones humanas, observamos un fenómeno similar al «efecto Danning-Kruger», donde los modelos a pequeña escala presentan una alta confianza a pesar de una menor precisión, mientras que los modelos a gran escala presentan una alta precisión pero una menor confianza. Esto supone un riesgo de sesgo sistemático en la verificación de la información, especialmente cuando los modelos a pequeña escala son utilizados por organizaciones con recursos limitados. La brecha de rendimiento es más pronunciada para las afirmaciones en idiomas distintos del inglés y provenientes del Sur Global, lo que podría agravar las desigualdades de información existentes. Estos hallazgos establecen un punto de referencia multilingüe para futuras investigaciones y brindan fundamento político para garantizar un acceso equitativo a una verificación de datos confiable asistida por inteligencia artificial.

Takeaways, Limitations

Takeaways:
Proporciona puntos de referencia multilingües del desempeño de la verificación de datos en varios LLM.
Revelamos una correlación entre alta confianza y baja precisión en modelos de pequeña escala y baja confianza y alta precisión en modelos de gran escala.
Esto plantea la posibilidad de que exista un sesgo sistemático en los esfuerzos de verificación de datos por parte de agencias con recursos insuficientes.
Destaca la brecha en el desempeño de la verificación de datos para el Sur Global y los idiomas distintos del inglés.
Proporciona una base para la formulación de políticas destinadas a garantizar un acceso equitativo a la verificación de datos asistida por inteligencia artificial.
Limitations:
Las 5.000 afirmaciones utilizadas en este estudio pueden no ser totalmente representativas de todos los tipos de información y lenguaje.
Es posible que falte un análisis detallado de otros factores que afectan el rendimiento de LLM (por ejemplo, calidad de los datos, método de entrenamiento del modelo).
Es necesario realizar un seguimiento de los cambios en el rendimiento del LLM en una perspectiva a largo plazo.
👍