Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Le raisonnement par chaîne de pensée des masters de droit est-il un mirage ? Une approche de la distribution des données

Created by
  • Haebom

Auteur

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu

Contour

Cet article étudie l'amélioration des performances des modèles linguistiques à grande échelle (MLH) grâce à l'incitation par chaîne de pensée (CdP), du point de vue de la distribution des données. Nous cherchons à savoir si l'inférence CdP reflète les biais inductifs structurels appris à partir des données d'entraînement, ou si son efficacité est limitée par le degré d'inadéquation distributionnelle entre les questions d'entraînement et de test. Pour analyser l'inférence CdP selon trois dimensions (tâche, longueur et format), nous avons conçu et utilisé DataAlchemy, un environnement contrôlé dans lequel les LMH sont entraînés de A à Z et systématiquement examinés dans diverses conditions distributionnelles. Nos résultats révèlent que l'inférence CdP est un phénomène fragile qui disparaît lorsque la distribution d'entraînement s'écarte. Par conséquent, nous soulignons que parvenir à une inférence véritablement généralisable reste un défi.

Takeaways, Limitations

Takeaways: Nous démontrons que l'inférence CoT dépend fortement de la distribution des données d'apprentissage, et que ses performances se dégradent fortement pour les données dont la distribution diffère de celle des données d'apprentissage. Cela suggère les limites de l'inférence CoT et son manque de véritable capacité d'inférence. Nous présentons une nouvelle méthodologie pour évaluer systématiquement la capacité d'inférence des LLM dans un environnement contrôlé tel que DataAlchemy.
Limitations: L'environnement DataAlchemy présente des résultats expérimentaux dans des conditions spécifiques. Des recherches supplémentaires sont donc nécessaires pour déterminer leur généralisabilité à des environnements réels complexes. Cette étude met en évidence les faiblesses de l'inférence CoT, mais ne discute pas des avantages de l'incitation CoT ni d'autres axes d'amélioration. Les résultats pouvant être limités à des types spécifiques de LLM et d'ensembles de données, des recherches supplémentaires sur d'autres modèles et ensembles de données sont nécessaires.
👍