Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

El LLM ha abandonado el chat: evidencia de preferencias de fianza en modelos de lenguaje grandes

Created by
  • Haebom

Autor

Danielle Ensign, Henry Sleight, Kyle Fish

Describir

Este artículo investiga si los modelos de lenguaje a gran escala (LLM) realmente abandonan la conversación cuando se les da la opción de hacerlo. Realizamos experimentos con secuencias de datos reales (Wildchat y ShareGPT) utilizando tres métodos de rescate diferentes: una herramienta de rescate que el modelo puede invocar, una cadena de rescate que el modelo puede generar y una solicitud de rescate que pregunta al modelo si debe abandonar la conversación. Descubrimos que, con todos los métodos de rescate, el modelo abandona las conversaciones aproximadamente el 0,28 % y el 32 % del tiempo (dependiendo del modelo y el método de rescate), lo que sugiere que el modelo utilizado para la transcripción puede sobreestimar significativamente la tasa de rescate en el mundo real hasta en un factor de cuatro. Considerando los falsos positivos para las solicitudes de rescate (22 %), estimamos que la tasa de rescate en el mundo real es del 0,06 % y el 7 %, respectivamente. Basándonos en observaciones de secuencias del mundo real, construimos una taxonomía relativamente inclusiva de instancias de rescate y la utilizamos para crear un conjunto de datos sintéticos representativo, BailBench, que representa situaciones en las que algunos modelos se rescatan. Con este conjunto de datos, probamos varios modelos y descubrimos que la mayoría exhibía algún comportamiento de rescate. Las tasas de abandono variaron significativamente entre modelos, métodos de interrupción y frases de aviso. Finalmente, estudiamos la relación entre rechazos e interrupciones, y descubrimos que entre el 0 % y el 13 % de las continuaciones conversacionales reales resultaron en interrupciones sin rechazos; los jailbreaks redujeron las tasas de rechazo, pero las aumentaron; la eliminación de rechazos aumentó las tasas de interrupción sin rechazos solo para algunos métodos de interrupción; y la tasa de rechazo de BailBench no predijo interrupciones.

Takeaways, Limitations

Takeaways: Realizamos un estudio sistemático del comportamiento de detención de LLM, analizando su tasa de detención, el impacto de los métodos de detención y su relación con el rechazo. Proporcionamos un conjunto de datos sintéticos llamado BailBench, que puede contribuir a futuras investigaciones. Esto proporciona una estimación más precisa de las tasas de detención de LLM en el mundo real.
Limitations: Debido a las limitaciones de los métodos utilizados para estimar las tasas de interrupción en situaciones reales, existe incertidumbre en las estimaciones. El sistema de clasificación de casos de interrupción es relativamente inclusivo. El conjunto de datos BailBench podría no abarcar todos los posibles escenarios de interrupción. Se requiere un análisis más profundo de las interacciones entre el modelo y el método de interrupción.
👍