Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CoSER: Coordinating LLM-Based Persona Simulation of Established Roles

Created by
  • Haebom

저자

Xintao Wang, Heng Wang, Yifei Zhang, Xinfeng Yuan, Rui Xu, Jen-tse Huang, Siyu Yuan, Haoran Guo, Jiangjie Chen, Shuchang Zhou, Wei Wang, Yanghua Xiao

개요

본 논문은 기존 캐릭터를 효과적으로 역할극하는 언어 에이전트(RPLA) 개발을 위한 고품질 데이터셋, 오픈 모델, 그리고 평가 프로토콜인 CoSER을 제시합니다. CoSER 데이터셋은 771권의 유명 서적에서 추출한 17,966개의 캐릭터를 포함하며, 실제 세계의 복잡성을 반영한 대화, 대화 설정, 캐릭터 경험, 내면의 생각 등 다양한 데이터 유형을 제공합니다. 연기 기법에서 영감을 얻어, LLMs이 책 속 장면에서 여러 캐릭터를 순차적으로 연기하는 '주어진 상황 연기'를 훈련 및 평가 방법으로 도입했습니다. 이 데이터셋을 사용하여 LLaMA-3.1 모델 기반의 고급 오픈 RPLA인 CoSER 8B와 CoSER 70B를 개발했습니다. 실험 결과, CoSER 데이터셋이 RPLA 훈련, 평가 및 검색에 효과적임을 보여주었으며, CoSER 70B는 InCharacter 및 LifeChoice 벤치마크에서 각각 75.80%와 93.47%의 정확도를 달성하여 GPT-4o를 능가하거나 동등한 성능을 보였습니다.

시사점, 한계점

시사점:
기존 캐릭터를 효과적으로 역할극하는 RPLA 개발을 위한 고품질 데이터셋 및 평가 프로토콜 제공.
'주어진 상황 연기'라는 새로운 훈련 및 평가 방법 제시.
CoSER 70B 모델이 기존 최첨단 모델을 능가하는 성능을 달성.
다양한 유형의 데이터를 포함하는 CoSER 데이터셋을 통해 RPLA 연구의 발전에 기여.
한계점:
CoSER 데이터셋의 캐릭터가 771권의 유명 서적에 국한됨. 다양한 출처의 데이터를 포함하여 일반화 성능을 높일 필요가 있음.
평가 방법이 특정 벤치마크에 집중되어 있어, RPLA의 전반적인 성능을 포괄적으로 평가하지 못할 가능성이 있음.
모델의 bias 및 ethical concerns에 대한 논의가 부족함.
👍