대규모 언어 모델(LLM)은 추론에서 놀라운 발전을 이루었지만, 글쓰기, 정보 탐색, 실질적인 지침 제공과 같은 작업에서 사용자가 최적이라고 생각하지 않는 응답을 생성하는 경우가 있다. 기존의 정렬 방식은 모델 보상을 최대화하는 것이 사용자 복지도 최대화하는 것으로 가정하지만, 이는 종종 실패한다. 모델은 사용자가 간결한 답변을 선호할 때 지나치게 명확하게 설명하거나 장황한 추론을 생성할 수 있다. 이러한 행동은 개별적으로 합리적인 선택이 사회적으로 최적이 아닌 결과를 초래하는 죄수의 딜레마와 유사하다. 근본적인 문제는 LLM과 사용자 모두에게 상호 이익이 되는 원칙적인 의사 결정 메커니즘의 부재이다. 본 논문에서는 게임 이론적 의사 결정을 추론과 학습에 통합하는 정렬 프레임워크인 GTAlign을 제안한다. 추론 과정에서 모델은 사용자-LLM 상호 작용을 전략적 게임으로 명시적으로 취급한다. 모델은 추론 체인 내에서 보수 행렬을 구성하여 자신과 사용자 모두의 복지를 추정하고 상호 이익이 되는 행동을 선택한다. 학습 과정에서, 상호 협력적인 응답을 강화하여 모델의 행동을 사회적으로 효율적인 결과와 일치시키는 상호 복지 보상을 도입한다. 또한, LLM 서비스의 가격 정책이 변경될 때 게임 이론적 추론을 활용하여 LLM의 응답을 동적으로 조정하는 추론 기술을 도입한다. 광범위한 실험 결과, GTAlign이 다양한 작업에서 기준선에 비해 추론 효율성, 답변 품질 및 상호 복지를 크게 향상시키는 것으로 나타났다.