この論文では、大規模言語モデル(LLM)が生成するコール録音の要約で発生する「オペレーションバイアス」を検出して定量化する新しいフレームワークであるBlindSpotを紹介します。 BlindSpotは、15種類の操作偏向次元(例えば、スムーズ、話者、トピックなど)に基づいて、LLMをゼロショット分類器として活用して、録音録と要約文の偏りを測定します。 2500の実際のコール録音と20のさまざまなLLMが生成した要約文を使用した実証研究により、モデルのサイズや種類に関係なく、すべてのモデルに体系的な偏りが存在することを明らかにしました。偏向の定量化は、Fidelity Gap(JS Divergenceベース)とCoverage(簡略ソースラベル比)の2つの指標を使用して行われました。