Yassine El Boudouri, Walter Nuninger, Julian Alvarez, Yvan Peter
개요
대규모 언어 모델(LLM)의 페르소나 채택 및 역할극 능력은 주목할 만하지만, 인간 평가는 자원 집약적이고 자동 평가는 편향될 수 있어 이 능력을 평가하는 데 어려움이 있습니다. 본 논문에서는 LLM의 역할극 능력을 감정 이해, 의사결정, 도덕적 일관성, 캐릭터 일관성의 네 가지 핵심 측면에서 평가하도록 설계된 새로운 벤치마크인 Role-Playing Eval (RPEval)을 제시합니다. 본 논문에서는 RPEval의 구성 과정과 기준 평가 결과를 자세히 설명하며, 코드와 데이터셋은 https://github.com/yelboudouri/RPEval 에서 이용 가능합니다.
시사점, 한계점
•
시사점: LLM의 역할극 능력을 다각적으로 평가할 수 있는 새로운 벤치마크 RPEval을 제시함으로써, LLM의 성능 향상 및 연구 발전에 기여합니다. 객관적인 평가 기준을 제공하여 LLM의 역할극 능력에 대한 더욱 정확한 분석이 가능해집니다. 공개된 코드와 데이터셋을 통해 다른 연구자들의 후속 연구를 촉진합니다.
•
한계점: RPEval이 제시하는 네 가지 측면 외에도 LLM의 역할극 능력을 평가할 수 있는 다른 중요한 측면이 있을 수 있습니다. 현재 제공되는 데이터셋의 규모 및 다양성이 향후 개선될 여지가 있습니다. 자동 평가 방식의 편향 가능성을 완전히 배제하기는 어렵습니다.