この論文は、大規模言語モデル(LLM)が会話を中断する選択肢が与えられたときに実際にそうするかどうかを調べます。 3つの異なる中断方法(モデルが呼び出すことができる中断ツール、モデルが出力できる中断文字列、モデルに中断するかどうかを尋ねる中断プロンプト)を使用して、実際の世界データ(WildchatおよびShareGPT)の連続について実験を行いました。その結果、すべての中断方法でモデルが会話を中断する割合は約0.28 32%で現れ(モデルと中断方法によって異なる)、これは転写に使用されたモデルに大きく依存し、実際の世界中断率を最大4倍まで過大評価することができることを示唆する。中断プロンプトの誤検知(22%)を考慮すると、実際の世界中断率は0.06 7%と推定されます。実際の世界データの連続に関する観察結果に基づいて、中断事例の比較的包括的でない分類体系を構築し、これを使用して一部のモデルが中断される状況を示すBailBenchという代表的な合成データセットを生成した。このデータセットを使用してさまざまなモデルをテストした結果、ほとんどのモデルで一部の中断動作が発生することを確認しました。中断率は、モデル、中断方法、およびプロンプト句によって大きく異なりました。最後に、拒否と中断の関係を研究し、実際の対話の連続の0〜13%が拒否せずに中断につながり、脱獄は拒否率を減少させるが中断率を増加させ、拒否除去は一部の中断方法に対してのみ拒否なしの中断率を増加させ、BailBenchの拒否率は中断率を予測しなかった。