Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Repenser la construction de référentiels LLM spécifiques à un domaine : une approche exhaustive et compacte

Created by
  • Haebom

Auteur

Rubing Chen, Jiaxin Wu, Jian Wang, Xulu Zhang, Wenqi Fan, Chenghua Lin, Xiao-Yong Wei, Qing Li

Contour

Cet article vise à améliorer l'efficience et l'efficacité de la construction de benchmarks pour évaluer les capacités spécifiques à un domaine des modèles de langage à grande échelle (MLH). Les benchmarks existants s'appuyaient principalement sur des règles de mise à l'échelle, l'affinement de l'apprentissage supervisé à l'aide de corpus volumineux ou la génération de vastes ensembles de questions. Cependant, l'impact de la conception de corpus et d'ensembles de questions-réponses (QA) sur la précision et le rappel des LLM spécifiques à un domaine n'a pas été exploré. Cet article comble cette lacune et démontre que les règles de mise à l'échelle ne sont pas toujours optimales pour la construction de benchmarks spécifiques à un domaine. Nous proposons plutôt Comp-Comp, un cadre de benchmarking itératif basé sur le principe d'exhaustivité-compressibilité. L'exhaustivité garantit le rappel sémantique pour un domaine donné, tandis que la compacité améliore la précision, guidant la construction de corpus et d'ensembles de questions-réponses. Afin de valider ce cadre, nous avons mené une étude de cas dans une université prestigieuse afin de développer XUBench, un benchmark à grande échelle, complet et à domaine fermé. Bien que cette étude ait utilisé un contexte académique comme étude de cas, le cadre Comp-Comp est conçu pour fournir des informations précieuses sur l’élaboration de repères dans une variété de domaines au-delà du milieu universitaire.

Takeaways, Limitations

Takeaways: Nous démontrons que s'appuyer uniquement sur les lois d'échelle n'est pas l'approche optimale pour construire des benchmarks LLM spécifiques à un domaine. Nous proposons Comp-Comp, un nouveau cadre basé sur le principe d'inclusivité-compactité, offrant une méthode plus efficace et efficiente pour construire des benchmarks. Nous démontrons la faisabilité du cadre Comp-Comp à l'aide d'un exemple concret, XUBench. Nous fournissons un cadre extensible à divers domaines.
Limitations : À ce jour, une seule étude de cas a été présentée pour un domaine académique. Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité du framework Comp-Comp à d'autres domaines. Les détails sur la configuration spécifique et les indicateurs de performance de XUBench font défaut.
👍