プロンプトにおける自己一貫性

自己一貫性は、人工知能言語モデルの推論能力を高める新しい技術です。従来の連鎖思考（Chain of Thought、CoT）方式を改良し、さまざまな推論経路を生成して、その中から最も一貫した答えを選びます。この方法は、複雑な算術的推論や常識的な論理問題にも効果を発揮します。

この技術は、Xuezhi Wangが2023年に発表した「Self-Consistency Improves Chain of Thought Reasoning in Language Models」の研究で提案されました。

SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHT REASONING IN LANGUAGE MODELS.pdf823.42KB

•

多様な推論経路の生成：複数の短いCoTプロンプトを使ってさまざまな推論ルートを作り出します。

•

一貫した回答の選択：生成されたルートの中から最も一貫性のある答えを見極めて選択します。

•

結果の集約：複数の推論ルートを統合して最終的な答えを導き出します。

CoT方式は、直接答えを出すのではなく、推論過程を段階的に説明するようにモデルを導きます。これに対し、自己一貫性はこうしたCoTアプローチに基づき複数の推論経路を生み出し、その中で最も一貫した結果を選ぶ方法に拡張されています。

今回も数学の問題があるとしましょう。問題は以下の通りです。

「ヨンヒは60kmの自転車旅行中に2回停車しました。最初の停車は20km後に行い、2回目の停車は旅行が終わる15km前に行いました。最初と2回目の停車の間にヨンヒが移動した距離はいくらですか？」

通常、プロンプトに入力するとこのように表示されます。

ヨンヒは合計60kmを旅しました。最初の停車の後、60 - 20 = 40kmを走りました。したがって答えは40kmです。

やはり間違えてしまいました。一見すると簡単な引き算の問題ですが、LLMには簡単ではなかったようです。これを自己一貫性モデルで解かせてみましょう。

推論ルート1：「ヨンヒは合計60kmを旅しました。最初の停車は20km後、2回目の停車は旅の終わりの15km前でした。よって最初と2回目の停車の間には60 - 20 - 15 = 25km進みました。答えは25kmです。」

推論ルート2：「60kmの旅行中に1回目の停車は20kmで、2回目は60 - 15 = 45kmで行いました。最初と2回目の停車の間の距離は45 - 20 = 25kmです。答えは25kmです。」

どちらの推論も正答にたどり着いています。これが自己一貫性の手法を使った例です。これをもっと分かりやすく例えると次のようになります。

Q：ヨンヒは60kmの自転車旅行中に最初の停車を20km後にしました。最初の停車後、彼女が旅した距離はどのくらいですか？

A：ヨンヒは最初の停車を20km後にしました。したがって、最初の停車後の残りの距離は60 - 20 = 40kmです。

Q：ヨンヒの2回目の停車は、旅の終わりの15km前にありました。全体の旅行距離から2回目の停車までの距離はどのくらいですか？

A：旅の終わりの15km前に2回目の停車がありました。したがって、全体の旅行距離から2回目の停車までの距離は60 - 15 = 45kmです。

Q：最初の停車と2回目の停車の間の距離はどのくらいですか？

A：最初の停車後の残りの距離は40kmで、2回目の停車までの距離は45kmです。したがって、2つの停車間の距離は45 - 20 = 25kmです。

どんな違いかわかりますか？

「ヨンヒは60kmの自転車旅行中に2回停車しました。最初の停車は20km後に行い、2回目の停車は旅が終わる15km前に行いました。最初と2回目の停車の間でヨンヒが旅した距離はいくらですか？」

という文を区切って一つ一つ回答しながら問題を解かせるというやり方です。こうすることで、GPT-3やLLaMA2、Claudeなどでは解けなかった問題も解決できることが確認でき、後に紹介する思考ツリー法と組み合わせれば、CoTの弱点だったモデル規模による性能差もある程度カバーできます。

出典を明記し、著作権者の許可の下で商用利用が可能です。