Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

À L'intérieur de vous se trouvent de nombreux loups : utiliser des modèles cognitifs pour interpréter les compromis de valeur dans les LLM

Created by
  • Haebom

Auteur

Sonia K. Murthy, Rosie Zhao, Jennifer Hu, Sham Kakade, Markus Wulfmeier, Peng Qian, Tomer Ullman

Contour

Cet article étudie la manière dont les modèles linguistiques à grande échelle (MLA) gèrent les compromis de valeur entre des objectifs contradictoires (par exemple, transmettre la vérité pure et dure, maintenir la confiance et prendre en compte les sentiments de l'autre partie) dans des situations sociales quotidiennes. À l'aide du « modèle cognitif » des sciences cognitives, nous évaluons dans quelle mesure les MLA présentent des compromis de valeur similaires à ceux observés chez l'humain. Nous évaluons systématiquement ces compromis de valeur dans deux contextes : le niveau d'« effort » d'inférence d'un modèle boîte noire de pointe et la dynamique post-apprentissage par renforcement d'un modèle open source. Par conséquent, l'utilité informationnelle est supérieure à l'utilité sociale dans le modèle d'inférence, et cette tendance est également confirmée dans le modèle open source, qui présente une meilleure capacité de raisonnement mathématique. L'analyse de la dynamique d'apprentissage des MLA révèle d'importantes variations des valeurs d'utilité au début de la phase d'apprentissage, ainsi que des effets persistants du modèle de base et de la sélection des données avant l'apprentissage. Cette étude reflète le développement des LLM sous divers aspects et fournit des informations sur l’hypothèse d’autres comportements de haut niveau, la conception de schémas de formation de modèles d’inférence et l’amélioration du contrôle des compromis de valeur pendant la formation des modèles.

Takeaways, Limitations_

Takeaways:
Approfondir la compréhension du mécanisme d’équilibrage des valeurs du LLM et révéler ses différences avec les humains.
Proposer une direction pour le développement du modèle à travers une analyse de corrélation entre la capacité de raisonnement et la capacité sociale du LLM.
Identifier les modèles de changement de valeur dans les premières étapes de la formation LLM pour suggérer la possibilité d'établir une stratégie de formation efficace.
Suggère une généralisabilité à diverses architectures LLM et méthodes de formation.
Limitations:
L’interprétation de l’équilibre des valeurs du LLM en s’appuyant sur des modèles cognitifs spécifiques présente des limites.
Difficultés de généralisation en raison des limitations du type et de la taille des LLM utilisés dans l’analyse.
Il est difficile de mesurer quantitativement dans quelle mesure l’échelle de valeur du LLM est similaire à celle des humains.
La possibilité qu’il ne reflète pas pleinement la complexité des situations sociales.
👍