Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ToM-RL: Reinforcement Learning Unlocks Theory of Mind in Small LLMs

Created by
  • Haebom

저자

Yi-Long Lu, Chunhui Zhang, Jiajun Song, Lifeng Fan, Wei Wang

개요

본 논문은 사후 학습 단계에서 규칙 기반 강화 학습(RL)을 적용하여 대규모 언어 모델(LLM)의 구조적 추론 능력을 향상시킨 연구에 대해 다룹니다. 특히, 타인의 정신 상태를 추론하는 능력인 Theory of Mind (ToM)에 대한 사회적 추론에서 RL의 효과를 조사합니다. 0.5B~7B 파라미터의 소규모 LLM을 대상으로 3200개 질문으로 구성된 데이터셋을 사용하여 실험한 결과, RL로 학습된 7B 모델은 Hi-ToM 벤치마크에서 84.50%의 정확도를 달성하여 GPT-4o 및 DeepSeek-v3와 같은 모델을 능가했습니다. 3B 파라미터 이하의 소규모 모델은 추론 붕괴 현상을 보였으나, 7B 파라미터 이상의 대규모 모델은 일관된 신념 추적을 통해 안정적인 성능을 유지했습니다. 또한, 고차원적인 분포 외 ToM 문제, 새로운 텍스트 표현, 그리고 이전에 보지 못한 데이터셋에 대해 강력한 일반화 능력을 보였습니다. 이러한 결과는 RL이 LLM에서 구조적 문제 해결과 미묘한 사회적 추론 간의 간극을 메우는 사회적 인지 추론 향상에 대한 잠재력을 보여줍니다.

시사점, 한계점

시사점:
규칙 기반 강화 학습(RL)이 소규모 LLM의 Theory of Mind(ToM) 능력을 효과적으로 향상시킬 수 있음을 보여줍니다.
RL 기반 모델이 고차원, 분포 외 ToM 문제 및 새로운 데이터셋에 대한 강력한 일반화 능력을 가짐을 확인했습니다.
제한된 데이터셋으로도 상당한 성능 향상을 달성하여 RL의 효율성을 입증했습니다.
LLM의 사회적 인지 추론 능력 향상에 대한 새로운 가능성을 제시합니다.
한계점:
사용된 데이터셋의 규모가 비교적 작습니다 (3200개 질문).
3B 파라미터 이하의 소규모 모델에서는 추론 붕괴 현상이 발생했습니다. 모델 크기와 성능 간의 관계에 대한 추가 연구가 필요합니다.
다양한 사회적 상황과 복잡한 ToM 문제에 대한 일반화 능력에 대한 추가적인 검증이 필요합니다.
👍