COMAL: A Convergent Meta-Algorithm for Aligning LLMs with General Preferences
Created by
Haebom
作者
Yixin Liu, Argyris Oikonomou, Weiqiang Zheng, Yang Cai, Arman Cohan
概要
本論文は、人間の好みの複雑さを捉えるためにゲーム理論的フレームワークを利用して言語モデルの整列問題を解決する新しいアプローチであるConvergent Meta Alignment Algorithm(COMAL)を提案する。既存のソート方法のLimitationsを克服し、Nashバランスポリシーを見つけて、すべての競争ポリシーに対して50%の勝率を確保することを目指しています。 COMALは単純でありながら既存の好み最適化方法と統合しやすく、Llama-3-8B-InstructおよびQwen2.5-7Bモデルに適用して高い勝率を実証した。