博弈论如何提升人工智能的准确性和效率

Haebom

May 18, 20242y ago

博弈论是一门研究个人或组织在不同情境下如何做出决策的数学理论。该理论分析每个人或团体为了最大化自身利益会如何采取行动，以及这些行为如何与他人的选择互动。换句话说，博弈论研究在受他人选择影响的情况下如何找到最优决策。这样说可能听起来有些复杂，我们来看几个例子。

사실 죄수의 딜레마로 설명되는 이론이기도 합니다. 이 상황의 경우 A와 B는 서로 정보교환을 할 수 없는 독립된 환경에 있어야 한다는 걸 전재로 합니다.

海豚和鲸鱼互相合作，想捕捞更多的鱼。它们都可以选择合作或不合作。如果海豚和鲸鱼都合作，双方都能获得大量的鱼。而如果只有一方选择合作，对方却不合作，那么不合作的一方将获得更多的利益；若双方都不合作，两者获得的鱼都会变少。通过这样的例子，博弈论说明了各种选择对结果的影响。

我们再来看下职场的例子：同事间为了晋升机会而相互竞争。在这里，每个人也可以选择合作或竞争。如果大家合作，工作环境会改善，整体效率提升，公司就有可能给所有人发奖金。而如果选择竞争，个人利益可能短暂增长，但从长远看，职场氛围会变差。

用这种方式解释，我们还可以用博弈论分析交通堵塞问题。当所有司机都试图选择最快路线时出现的堵车，同样可以通过博弈论来理解。如果所有司机都走最短路径，这条路反而可能变成最慢的。相反，如果司机们愿意选择稍远的路线，整体交通状况就会有所改善。

博弈论的核心是了解每个选择如何影响对方，并以此为基础制定最佳策略。

博弈论可以有效用于提高人工智能，尤其是大规模语言模型的效率和准确性。传统的AI训练方法有时会导致不一致或偏差的结果。而通过引入博弈论，AI能够综合各种场景和可能性，做出更准确公正的决策。

比如说，为了提升语言模型内两个系统——即“生成者”负责出题，“判别者”负责评价答案——之间的一致性。比如说：法国的首都是哪里？，对于这个问题，生成者最初评估自己有80%概率会回答“巴黎”。然后生成者掷硬币决定要不要如实作答，这个选择会影响判别者如何评价生成者的答案。

判别者会判断生成者给出的答案是真还是假，若判断为真，就给两方打分；判断为假则不给分。这一过程重复约一千次，每次双方都根据对方的反应进行学习和调整。通过这种互动，两个系统逐步给出一致的答案，从而极大提升了整个模型的一致性和准确性。

这种游戏有助于语言模型无论面对各种问题形式依然能一致给出同样的答案。选择纳什均衡作为一种提升语言模型可靠性、让用户更信任模型答案的方法。

纳什均衡：指两个参与者即使改变自己的策略也无法获得更好结果的状态。

麻省理工学院（MIT）的研究者开发了一种叫“共识博弈”的方法。这是让模型在生成和判别两种模式下自主找到一致答案的游戏。通过这种博弈，模型可以提高自身的准确性和内部一致性。

我个人是在看这次ICLR论文时偶然发现了这篇论文，没想到竟然还是去年NeurIPS获奖的。最近我更加觉得，既然人工智能越来越“像”人类，一些应用于社会科学的方法拿来用其实能带来不错的结果，这是一个很好的例子。

Subscribe to 'haebom'

📚 欢迎来到 Haebom 的档案馆。
---
我发布与 IT 💻、经济💰 和人文🎭相关的文章。
如果您对我的想法、观点或兴趣感兴趣，请订阅。
haebom@kakao.com