Causal Discovery and Counterfactual Reasoning to Optimize Persuasive Dialogue Policies
Created by
Haebom
Category
Empty
저자
Donghuo Zeng, Roberto Legaspi, Yuewen Sun, Xinshuai Dong, Kazushi Ikeda, Peter Spirtes, Kun Zhang
개요
본 논문은 사용자 설득을 위한 대화 시스템의 효과를 높이기 위해 인과 추론과 반사실적 추론을 활용하는 새로운 방법을 제시합니다. Greedy Relaxation of the Sparsest Permutation (GRaSP) 알고리즘을 사용하여 사용자와 시스템 발화 전략 간의 인과 관계를 파악하고, 이를 바탕으로 Bidirectional Conditional Generative Adversarial Networks (BiCoGAN)을 이용해 시스템의 반사실적 발화를 생성합니다. 마지막으로 Dueling Double Deep Q-Network (D3QN) 모델을 사용하여 반사실적 데이터를 활용, 시스템 발화 선택을 위한 최적 정책을 결정합니다. PersuasionForGood 데이터셋을 이용한 실험 결과, 제안된 방법이 기존 방법보다 설득 결과를 향상시키는 것을 보였습니다. 누적 보상과 Q-값의 증가는 인과 추론이 반사실적 추론을 강화하고 온라인 대화 시스템을 위한 강화 학습 정책을 최적화하는 데 효과적임을 보여줍니다.
시사점, 한계점
•
시사점:
◦
인과 추론과 반사실적 추론을 활용하여 대화 시스템의 설득력을 향상시킬 수 있음을 보여줌.
◦
GRaSP, BiCoGAN, D3QN의 조합을 통해 효과적인 설득 전략 학습이 가능함을 제시.
◦
PersuasionForGood 데이터셋을 사용한 실험 결과를 통해 방법의 유효성 검증.
•
한계점:
◦
특정 데이터셋(PersuasionForGood)에 대한 결과만 제시되어 일반화 가능성에 대한 추가 연구 필요.