Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Le LLM a quitté le chat : Preuves de préférences en matière de caution dans les grands modèles linguistiques

Created by
  • Haebom

Auteur

Danielle Ensign, Henry Sleight, Kyle Fish

Contour

Cet article examine si les modèles linguistiques à grande échelle (MLH) abandonnent effectivement leurs conversations lorsqu'ils en ont la possibilité. Nous avons mené des expériences sur des séquences issues de données réelles (Wildchat et ShareGPT) en utilisant trois méthodes d'abandon différentes : un outil d'abandon que le modèle peut invoquer, une chaîne d'abandon que le modèle peut générer et une invite d'abandon demandant au modèle s'il souhaite abandonner ses conversations. Nous avons constaté que, toutes méthodes confondues, le modèle abandonne les conversations dans environ 0,28 % et 32 % des cas (selon le modèle et la méthode d'abandon utilisée), ce qui suggère que le modèle utilisé pour la transcription peut surestimer considérablement le taux d'abandon dans le monde réel, jusqu'à un facteur quatre. En tenant compte des faux positifs pour les invites d'abandon (22 %), nous estimons le taux d'abandon dans le monde réel à 0,06 % et 7 %, respectivement. À partir d'observations de séquences réelles, nous avons construit une taxonomie relativement exhaustive des cas de sauvetage et l'avons utilisée pour créer un ensemble de données synthétiques représentatif, BailBench, qui représente les situations dans lesquelles certains modèles abandonnent. À l'aide de cet ensemble de données, nous avons testé différents modèles et constaté que la plupart présentaient un comportement de sauvetage. Les taux d'abandon variaient significativement selon les modèles, les méthodes d'interruption et les phrases d'invite. Enfin, nous avons étudié la relation entre rejets et interruptions, et constaté que 0 à 13 % des continuations conversationnelles réelles entraînaient des interruptions sans rejet ; les jailbreaks diminuaient les taux de rejet mais augmentaient les interruptions ; la suppression des rejets augmentait les taux d'interruption sans rejet uniquement pour certaines méthodes d'interruption ; et le taux de rejet de BailBench ne prédisait pas les interruptions.

Takeaways, Limitations

Takeaways: Nous avons mené une étude systématique du comportement des étudiants en master de droit (LLM), en analysant les taux d'interruption, l'impact des méthodes d'interruption et leur lien avec le rejet. Nous fournissons un ensemble de données synthétiques appelé BailBench, qui peut contribuer à de futures recherches. Cela permet d'obtenir une estimation plus précise des taux d'interruption réels des étudiants en master de droit (LLM).
Limitations: En raison des limites des méthodes utilisées pour estimer les taux d'interruption réels, les estimations sont incertaines. Le système de classification des cas d'interruption est relativement exhaustif. L'ensemble de données BailBench peut ne pas englober tous les scénarios d'interruption possibles. Une analyse plus approfondie des interactions entre le modèle et la méthode d'interruption est nécessaire.
👍