Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare

Created by
  • Haebom

저자

Siqi Zhu, David Zhang, Pedro Cisneros-Velarde, Jiaxuan You

개요

대규모 언어 모델(LLM)은 추론에서 놀라운 발전을 이루었지만, 글쓰기, 정보 탐색, 실질적인 지침 제공과 같은 작업에서 사용자가 최적이라고 생각하지 않는 응답을 생성하는 경우가 있다. 기존의 정렬 방식은 모델 보상을 최대화하는 것이 사용자 복지도 최대화하는 것으로 가정하지만, 이는 종종 실패한다. 모델은 사용자가 간결한 답변을 선호할 때 지나치게 명확하게 설명하거나 장황한 추론을 생성할 수 있다. 이러한 행동은 개별적으로 합리적인 선택이 사회적으로 최적이 아닌 결과를 초래하는 죄수의 딜레마와 유사하다. 근본적인 문제는 LLM과 사용자 모두에게 상호 이익이 되는 원칙적인 의사 결정 메커니즘의 부재이다. 본 논문에서는 게임 이론적 의사 결정을 추론과 학습에 통합하는 정렬 프레임워크인 GTAlign을 제안한다. 추론 과정에서 모델은 사용자-LLM 상호 작용을 전략적 게임으로 명시적으로 취급한다. 모델은 추론 체인 내에서 보수 행렬을 구성하여 자신과 사용자 모두의 복지를 추정하고 상호 이익이 되는 행동을 선택한다. 학습 과정에서, 상호 협력적인 응답을 강화하여 모델의 행동을 사회적으로 효율적인 결과와 일치시키는 상호 복지 보상을 도입한다. 또한, LLM 서비스의 가격 정책이 변경될 때 게임 이론적 추론을 활용하여 LLM의 응답을 동적으로 조정하는 추론 기술을 도입한다. 광범위한 실험 결과, GTAlign이 다양한 작업에서 기준선에 비해 추론 효율성, 답변 품질 및 상호 복지를 크게 향상시키는 것으로 나타났다.

시사점, 한계점

시사점:
GTAlign은 게임 이론적 의사 결정을 활용하여 LLM과 사용자 간의 상호 작용을 개선한다.
GTAlign은 추론 효율성, 답변 품질 및 상호 복지를 향상시킨다.
GTAlign은 LLM 서비스의 가격 정책 변화에 동적으로 적응한다.
한계점:
논문에 구체적인 한계점은 명시되어 있지 않음.
👍