Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Leçons tirées de l'étude du raisonnement latent à deux sauts

Created by
  • Haebom

Auteur

Mikita Balesni, Tomek Korbak, Owain Evans

Contour

Cet article examine les capacités d'inférence potentielles des modèles linguistiques à grande échelle (MLL), notamment leur capacité à combiner deux faits par le biais d'une réponse à des questions en deux étapes. Des recherches antérieures ont montré que les LLM peinent à répondre à des questions en deux étapes sans CoT (Coordination du Processus de Pensée). Cette étude affine les LLM à l'aide de faits synthétiques, évaluant ainsi leurs capacités d'inférence pure sans mémorisation ni raccourcis d'inférence. Des expériences avec des modèles tels que Llama 3 8B et GPT-4o montrent que, si ces modèles ne parviennent pas à combiner deux faits synthétiques, ils parviennent à combiner un fait synthétique avec un fait en langage naturel. Cela suggère que les LLM ont des capacités potentielles d'inférence en deux étapes, mais l'évolution de cette capacité avec la taille du modèle reste incertaine. Enfin, nous soulignons l'importance pour les chercheurs en inférence des LLM d'éviter à la fois les faux succès dus à la mémorisation ou aux raccourcis d'inférence et les faux échecs dus à des configurations expérimentales artificielles lorsqu'ils tirent des conclusions sur les capacités d'inférence potentielles des LLM.

Takeaways, Limitations_

Takeaways: Nous avons présenté un dispositif expérimental contrôlé démontrant que les étudiants en master possèdent potentiellement des capacités de raisonnement en deux étapes. À l'aide de données synthétiques, nous avons évalué les capacités de raisonnement pur, en éliminant la mémorisation et les raccourcis. Nous avons également présenté des méthodes pour éviter les faux succès et les faux échecs lors de l'étude des capacités de raisonnement des étudiants en master.
Limitations: On ne sait pas exactement comment la capacité d'inférence en deux étapes du LLM évolue avec la taille du modèle. Le succès de la combinaison de données synthétiques et de données en langage naturel suggère que des recherches supplémentaires sont nécessaires pour comprendre les capacités d'inférence du modèle en général. Une validation supplémentaire est nécessaire pour déterminer si le dispositif expérimental proposé peut être généralisé à tous les types de problèmes d'inférence en deux étapes.
👍