Sign In

Guess What I am Thinking: A Benchmark for Inner Thought Reasoning of Role-Playing Language Agents

Created by
  • Haebom
Category
Empty

저자

Rui Xu, MingYu Wang, XinTao Wang, Dakuan Lu, Xiaoyu Tan, Wei Chu, Yinghui Xu

개요

본 논문은 LLM 기반 역할극 언어 에이전트(RPLA)의 내적 사고 과정을 이해하고 평가하기 위한 새로운 벤치마크인 ROLETHINK를 제안합니다. ROLETHINK는 문학 작품에서 추출된 데이터를 기반으로 하며, 생성된 캐릭터의 생각을 원작 대사 또는 전문가 분석과 비교하는 두 가지 데이터셋(gold set, silver set)을 포함합니다. 또한, 캐릭터의 기억 회상, 반응 예측, 동기 합성을 통해 내적 사고를 생성하는 새로운 Chain-of-Thought 접근 방식인 MIRROR를 제안하고, 실험을 통해 기존 방법보다 우수한 성능을 보임을 입증합니다. GitHub 레포지토리(https://github.com/airaer1998/RPA_Thought)에서 관련 자료를 제공합니다.

시사점, 한계점

시사점:
RPLA의 내적 사고 과정 이해 및 평가를 위한 새로운 벤치마크(ROLETHINK)와 평가 방법 제시.
RPLA 성능 향상을 위한 새로운 Chain-of-Thought 접근 방식(MIRROR) 제안 및 성능 검증.
향상된 RPLA 개발을 위한 중요한 방향 제시.
한계점:
ROLETHINK 벤치마크의 데이터셋 크기 및 다양성에 대한 추가적인 연구 필요.
MIRROR 모델의 일반화 성능 및 다양한 문학 장르에 대한 적용성 검증 필요.
실제 인간의 사고 과정과의 차이점 및 한계에 대한 추가적인 분석 필요.
👍