Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Raisonnement inductif étendu pour l'inférence de préférences personnalisées à partir de signaux comportementaux

Created by
  • Haebom

Auteur

Jia-Nan Li, Jian Guan, Wei Wu, Rui Yan

Contour

Cet article étudie la capacité de raisonnement inductif des modèles linguistiques à grande échelle (MLH), en particulier l'inférence des préférences des utilisateurs, plutôt que leur capacité de raisonnement déductif. Capturer les diverses préférences des utilisateurs dans la tâche d'alignement des LHH constitue un défi, car ces préférences sont implicitement incluses dans diverses formes d'interaction. Dans cet article, nous proposons le modèle AlignXplore, qui permet l'inférence systématique des préférences à partir des signaux comportementaux de l'historique des interactions des utilisateurs, grâce à une chaîne d'inférence étendue. AlignXplore est développé en combinant l'apprentissage à froid basé sur des données synthétiques et l'apprentissage par renforcement en ligne, et montre une amélioration moyenne des performances de 15,49 % par rapport aux modèles existants. De plus, nous présentons le cas optimal d'apprentissage par inférence des préférences grâce à une comparaison systématique des stratégies de modélisation de la récompense, et révélons l'émergence de schémas d'inférence inductifs de type humain au cours du processus d'apprentissage.

Takeaways, Limitations_

Takeaways:
Une nouvelle approche pour améliorer la capacité de raisonnement inductif des LLM
Une solution efficace au problème d'inférence des préférences des utilisateurs (modèle AlignXplore)
Inférence de streaming efficace et amélioration itérative des préférences possibles
Démontrer une forte généralisation sur une variété de formats d'entrée et de sous-modèles
Présentation du meilleur cas d'apprentissage par inférence de préférence
Observation de modèles de raisonnement inductif de type humain pendant la formation
Limitations :
Dépendance aux données synthétiques (apprentissage à froid)
Une validation supplémentaire des performances de généralisation sur des données utilisateur réelles est nécessaire.
Il existe une possibilité de biais envers certains types d’interactions utilisateur.
Des recherches supplémentaires sont nécessaires sur l’interprétabilité du processus d’inférence du modèle.
👍