本論文は、既存のQAベンチマークの_____ T82319_____であるデータ汚染、暗記、増加するデータセットの作成コストを解決するために、既存のQAデータセットを構造化された敵対的なディスカッションに変換する評価パラダイムを提案します。一方のモデルが正解を提唱し、他のモデルが代替の回答を構成して提唱するように進行し、正解を知らない審査モデルが決定する。多回目の議論を通じて難易度を高め、暗記を制限し、既存のQA項目を再利用して管理コストを削減することが特徴である。主な貢献は、QA課題をディスカッションベースの評価に変換するパイプラインとMMLU-Proの質問のサブセットを使用した公開ベンチマークです。実験結果は,その方法の堅牢性とデータ汚染に対する効果を検証し,テスト質問で微調整したLlama 3.1モデルが討論では性能が低下することを示した。また、弱いスクリーニングモデルでさえ、強力な議論者を区別できることを示しており、費用対効果の高いシステムを評価できることを示唆しています。結論として、本論文のフレームワークは、「テストセットを事前学習するだけでは十分ではない」ことを強調し、高度な言語モデルの真の推論能力を測定する持続可能な方法を提示します。