Wittgenstein의 언어 게임 이론에 영감을 받아, 의사결정과 언어 표현을 분리하는 기존의 다단계 프레임워크 대신 문맥 내 상호작용을 통해 언어 에이전트가 학습할 수 있다는 가설을 제시합니다. 사회적 추론 게임인 늑대인간 게임을 사용하여, 다중 에이전트 Kahneman & Tversky's Optimization (MaKTO)을 개발했습니다. MaKTO는 다양한 모델을 광범위한 게임 플레이에 참여시켜 쌍을 이루지 않은 바람직한 응답과 바람직하지 않은 응답을 생성한 후, KTO를 사용하여 모델의 의사결정 과정을 개선합니다. 9인용 늑대인간 게임에서 MaKTO는 다양한 모델에 걸쳐 평균 61%의 승률을 달성하여 GPT-4o 및 2단계 강화학습 에이전트보다 각각 23.0% 및 10.9%의 상대적 개선을 보였습니다. 특히, MaKTO는 전문가 플레이어와 대결에서 60%의 승률을 기록하고 튜링 테스트 스타일의 맹검 테스트에서 49%의 식별률만을 보이는 등 인간과 유사한 성능을 보여줍니다.