Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Cuantificación del sesgo inducido por etiquetas en autoevaluaciones y evaluaciones cruzadas de modelos lingüísticos de gran tamaño

Created by
  • Haebom

Autor

Muskan Saraf, Sajjad Rezvani Boroujeni, Justin Beaudry, Hossein Abedi, Tom Bush

Describir

Este estudio investigó los sesgos de autoevaluación y revisión por pares utilizando tres modelos de lenguaje a gran escala (LLM): ChatGPT, Gemini y Claude. Cada modelo se evaluó bajo cuatro condiciones (sin etiqueta, etiqueta verdadera y dos escenarios con etiqueta falsa) para entradas de blog escritas por cada modelo, utilizando la votación general de preferencias y calificaciones de calidad para la consistencia, el grado de información y la concisión. Los resultados revelaron que el nombre del modelo ("Claude", "Gemini") influyó significativamente en los resultados de la evaluación. La etiqueta "Claude" tendió a aumentar las puntuaciones, mientras que la etiqueta "Gemini" tendió a disminuirlas, e incluso las etiquetas falsas invirtieron las clasificaciones. Esto demuestra que la conciencia de identidad de un modelo puede influir significativamente tanto en los juicios de alto nivel como en las evaluaciones detalladas de calidad.

Takeaways, Limitations

Takeaways:
Los LLM revisados ​​por pares y autorevisados ​​muestran que el nombre (identidad) de un modelo puede influir significativamente en los resultados de la evaluación.
Esto sugiere que se necesitan protocolos de evaluación anónimos o multimodelo para lograr una evaluación comparativa justa del LLM.
Al evaluar los LLM, enfatizamos la importancia de las pruebas ciegas que ocultan la identidad del modelo.
Se cuestiona la fiabilidad de la autoevaluación del modelo.
Limitations:
Este estudio se limitó a tres LLM específicos, lo que limita su generalización.
El tema o estilo de la publicación del blog utilizada puede haber influido en los resultados.
Se necesita más investigación, incluyendo métricas de evaluación más diversas y más modelos.
👍