# Mitigating Lost in Multi-turn Conversation via Curriculum RL with Verifiable Accuracy and Abstention Rewards

### 저자

Ming Li, Pei Chen, Zhenhao Zhang, Tao Yang, Xinyang Zhang, Han Li, Tianyu Cao, Ming Zeng, Zhuofeng Wu, Meng Jiang, Huasheng Li, Lihong Li, Bing Yin

### 💡 개요

본 논문은 다중 턴 대화에서 발생하는 성능 저하 문제, 즉 'Lost-in-Conversation (LiC)' 현상을 해결하기 위해 'RLAAR (Curriculum Reinforcement Learning with Verifiable Accuracy and Abstention Rewards)'이라는 새로운 프레임워크를 제안합니다. RLAAR은 언어 모델이 정확한 답변 생성뿐만 아니라, 주어진 질문이 해결 가능한지 판단하는 능력까지 학습하도록 유도합니다. 이를 통해 모델은 문제 해결 능력과 정보 부족 시 적절한 기권(abstention) 사이의 균형을 배우게 되어, LiC 현상을 효과적으로 완화합니다.

### 🔑 시사점 및 한계

- 다중 턴 대화에서 모델의 신뢰도를 높이고 'Lost-in-Conversation' 현상을 완화하는 새로운 강화학습 기반 프레임워크를 제시합니다.

- 정확한 답변 생성과 더불어 문제 해결 가능성 판단 능력을 학습시켜, 정보 부족 시 적절한 기권을 유도함으로써 예측 불가능한 답변 생성을 줄입니다.

- 다중 턴 대화 시나리오에서 검증 가능한 정확도와 기권 보상을 결합한 커리큘럼 기반 학습이 모델의 성능과 신뢰도를 크게 향상시킬 수 있음을 보여줍니다.

- 제안된 방법론의 효과를 검증하기 위한 구체적인 LiC 벤치마크 데이터셋 및 평가 지표에 대한 상세한 설명이 추가적으로 필요할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2510.18731)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).