Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

Created by

Haebom

저자

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo, Difan Zou

💡 개요

대규모 언어 모델(LLM)은 단일 턴에서는 뛰어난 추론 능력을 보이지만, 정보가 점진적으로 공개되거나 업데이트되는 다중 턴 상호작용에서는 성능이 크게 저하되는 문제를 겪습니다. 이는 모델이 이전 추론 과정을 고수하며 새로운 정보를 무시하는 '맥락적 관성' 현상 때문입니다. 본 논문은 이러한 맥락적 관성을 극복하기 위해 단일 턴에서의 우수한 추론 능력을 안정적인 기준으로 활용하는 강화학습 기반 훈련 방식인 RLSTA(Reinforcement Learning with Single-Turn Anchors)를 제안합니다.

🔑 시사점 및 한계

•

다중 턴 상호작용에서 LLM의 맥락적 관성 문제를 해결하여 성능 안정성을 크게 향상시킬 수 있습니다.

•

단일 턴에서의 모델 능력을 활용하여 별도의 외부 검증기 없이도 효과적으로 작동하며, 수학에서 코딩으로의 도메인 간 일반화 성능을 보여줍니다.

•

제안된 RLSTA는 다양한 시나리오와 도메인에서 일반화 가능한 훈련 접근 방식으로서 잠재력이 높습니다.

•

향후 연구에서는 RLSTA의 적용 범위를 더욱 넓히고, 복잡하고 미묘한 맥락 변화에 대한 모델의 적응력을 더욱 강화하는 방향을 모색할 필요가 있습니다.

PDF 보기

Made with Slashpage