DialogXpert: Driving Intelligent and Emotion-Aware Conversations through Online Value-Based Reinforcement Learning with LLM Priors
Created by
Haebom
저자
Tazeek Bin Abdur Rakib, Ambuj Mehrish, Lay-Ki Soon, Wern Han Lim, Soujanya Poria
개요
대규모 언어 모델(LLM) 에이전트는 반응적인 대화에는 능숙하지만, 근시안적인 디코딩과 비용이 많이 드는 계획으로 인해 주도적이고 목표 지향적인 상호 작용에는 어려움을 겪습니다. DialogXpert는 고정된 LLM을 활용하여 각 턴마다 소규모의 고품질 후보 작업 집합을 제안하고, 시간차 학습을 통해 훈련된 고정된 BERT 임베딩에 대한 컴팩트한 Q-네트워크를 사용하여 이 축소된 공간 내에서 최적의 움직임을 선택합니다. 사용자의 감정을 추적함으로써 DialogXpert는 진정하고 공감하는 관계를 육성하면서 작업을 진행하기 위해 각 결정을 조정합니다. 협상, 정서적 지원, 튜터링 벤치마크에서 DialogXpert는 성공률 94%를 초과하여 3턴 이내에 대화를 유도하고, 더 큰 LLM을 사용하면 성공률이 97%를 넘어서면서 협상 결과를 현저하게 개선합니다. 이 프레임워크는 실시간, 전략적이고 감정적으로 지능적인 대화 계획을 대규모로 제공합니다. 코드는 https://github.com/declare-lab/dialogxpert/ 에서 사용할 수 있습니다.