본 논문은 대규모 언어 모델(LLM)의 사회적 추론 능력을 평가하기 위한 새로운 프레임워크인 InMind를 제시합니다. InMind는 사회적 추론 게임(SDG)인 Avalon을 활용하여, LLM이 개인화된 추론 스타일을 이해하고 적용할 수 있는지 평가합니다. InMind는 게임 진행 데이터, 전략 추적, 게임 후 반성 등을 활용하여 정적 일관성과 동적 적응력을 평가하는 네 가지 인지적 과제를 제시합니다. 11개의 최첨단 LLM을 Avalon 게임에 적용한 결과, 일반적인 LLM은 어휘적 단서에 의존하는 경향을 보이고 시간적 게임 진행이나 변화하는 전략에 적응하는 데 어려움을 겪는 반면, DeepSeek-R1과 같은 추론 강화 LLM은 개인화된 추론 능력을 보여주는 초기 단계에 있다는 것을 발견했습니다. 이 연구는 현재 LLM의 개인화되고 적응적인 추론 능력의 한계를 보여주며, 인지적으로 정렬된 인간-AI 상호작용을 위한 단계로서 InMind의 중요성을 강조합니다.
시사점, 한계점
•
시사점:
◦
LLM의 사회적 추론 능력 평가를 위한 새로운 프레임워크 InMind 제시
◦
개인화된 추론 스타일 적용 능력 평가의 중요성 강조
◦
일반적인 LLM과 추론 강화 LLM 간의 성능 차이 확인
◦
인지적으로 정렬된 인간-AI 상호작용을 위한 방향 제시
•
한계점:
◦
InMind 프레임워크는 Avalon 게임에 특화되어 있어 다른 SDG로의 일반화 가능성에 대한 추가 연구 필요
◦
평가된 LLM의 종류와 수가 제한적일 수 있음
◦
현재 LLM의 개인화된 추론 능력은 초기 단계이며, 더욱 발전된 모델과 평가 방법이 필요함