When2Speak: A Dataset for Temporal Participation and Turn-Taking in Multi-Party Conversations for Large Language Models

작성자

Haebom

카테고리

Empty

저자

Vihaan Nama, Shreya Mendi, Zian Ye, Brinnae Bent

💡 개요

본 논문은 다자간 대화에서 언제 발언해야 하는지가 무엇을 말하는지만큼 중요하다는 점에 주목하여, LLM의 발언 시점 학습을 위한 "When2Speak"이라는 데이터셋과 생성 파이프라인을 제안합니다. 이 데이터셋은 2~6명의 화자가 참여하는 16,000개의 대화에서 파생된 215,000개 이상의 예시를 포함하며, 발언 결정(SPEAK vs. SILENT)을 명시적으로 모델링합니다. When2Speak 데이터셋을 이용한 지도 미세 조정(SFT)은 제로샷 모델보다 뛰어난 성능을 보였지만, 모델들이 과도하게 신중하여 발언 기회를 놓치는 경향이 발견되었습니다.

🔑 시사점 및 한계

•

LLM은 다자간 대화에서 발언 시점을 배우는 것이 가능하며, 이를 위해 "When2Speak"과 같은 합성 데이터셋이 효과적인 접근 방식이 될 수 있습니다.

•

발언 시점 학습은 대화 지능의 독립적인 학습 가능한 차원이며, 강화 학습과 비대칭 보상 설계를 통해 모델의 발언 기회 포착 능력을 크게 향상시킬 수 있습니다.

•

현재 지도 미세 조정된 모델들은 여전히 상당수의 필요한 발언 시점을 놓치는 경향이 있으며, 이는 모델의 과도한 보수성으로 인한 한계입니다.

PDF 보기

Made with Slashpage