[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models Aligned with Human Cognitive Principles

Created by
  • Haebom

作者

Devichand Budagam, Ashutosh Kumar, Mahsa Khoshnoodi, Sankalp KJ, Vinija Jain, Aman Chadha

概要

この論文は、大規模言語モデル(LLM)の効果的な評価のために階層的プロンプト分類スキーム(HPT)を提示します。 HPTは人間の認知原理に基づいており、さまざまなタスクの認知要件を検討してLLMを評価します。階層的プロンプトフレームワーク(HPF)を活用して、認知的要求レベルに応じて5つの固有のプロンプト戦略を階層的に構成し、階層的プロンプト指数(HPI)を介して作業の複雑さとLLMの認知能力を評価します。さまざまなデータセットとLLMを使用した実験の結果、HPFは基準性能に対して2%〜63%の性能向上を示し、GSM8kが最も認知的に複雑な作業で平均HPI 3.20を記録した。 HPTとHPFの実装は公開され、今後の研究と再現性をサポートします。

Takeaways、Limitations

Takeaways:
LLMの性能評価のための新しい標準指標(HPI)の提供
LLMの認知能力とデータセットの複雑さを総合的に評価可能
HPFによるLLMの性能向上の可能性の提示(2%~63%)
さまざまなデータセットとLLMの実験結果によるHPTの検証
コード開示による研究の再現性の確保と今後の研究支援
Limitations:
HPIの絶対尺度の追加検証が必要
提示された5つのプロンプト戦略以外の戦略の有効性レビューが必要
特定のデータセットとLLMに偏った結果の可能性を考慮する
人間の認知原理の一般化の可能性に関するさらなる研究が必要
👍