この論文は、大規模言語モデル(LLM)の幻覚問題、特に検索拡張生成(RAG)設定で知識ベースの外部質問に答えるときに発生する幻覚問題を解決するための新しい評価方法論を提供します。従来の手動注釈方式の代わりに、自動化された評価を可能にするオープンソースライブラリの知識を紹介し、これにより、LLMの知識ベースの外部(OOKB)堅牢性を体系的に評価できることを示しています。 knowornotはカスタム評価データとパイプライン開発をサポートし、統合API、モジュール式アーキテクチャ、厳密なデータモデリング、さまざまなカスタマイズツールなどの機能を提供します。政府の政策関連の質疑応答チャットボットの4つを含むPolicyBenchと呼ばれるベンチマークを開発し、knowornotの有用性を実証します。 knowornotのソースコードはFitHubで公開されています。