Yuhan Chen, Yuxuan Liu, Long Zhang, Pengzhi Gao, Jian Luan, Wei Liu
개요
온라인 강화 학습에서 멀티턴 상호작용은 여전히 어려운 과제이다. 기존의 궤적 수준 최적화는 비효율적이고 오해를 불러일으키는 학습 신호를 발생시킨다. 본 논문에서는 태스크별 성공률에 따라 동적으로 샘플링을 할당하고 단계별 최적화를 수행하는 STEP(Success-rate-aware Trajectory-Efficient Policy optimization) 프레임워크를 제안한다. STEP은 어려운 태스크에 더 많은 노력을 할당하기 위해 평활된 성공률 기록을 유지하여 적응적인 궤적 재샘플링을 유도한다. 성공률 가중치 장점을 계산하고 궤적을 단계별 샘플로 분해한다. 마지막으로, 성공률이 낮은 태스크에 대한 업데이트를 개선하기 위해 단계별 GRPO 보강을 적용한다. OSWorld와 AndroidWorld 실험에서 STEP은 궤적 수준 GRPO보다 샘플 효율성과 학습 안정성을 크게 향상시켰으며, 동일한 샘플링 예산 하에서 더 빠르게 수렴하고 더 나은 일반화 성능을 보였다.
시사점, 한계점
•
STEP은 멀티턴 상호작용을 위한 온라인 강화 학습에서 궤적 수준 최적화의 한계를 극복하고 샘플 효율성을 향상시켰다.
•
성공률 기반의 동적 샘플링과 단계별 최적화를 통해 학습 효율성과 안정성을 높였다.
•
OSWorld와 AndroidWorld 환경에서 GRPO 대비 향상된 성능을 보였다.
•
한계점은 특정 환경(OSWorld, AndroidWorld)에서의 실험 결과에 국한된다는 점과, 다른 환경에서의 일반화 성능을 추가적으로 검증해야 한다는 점이다.
•
STEP의 하이퍼파라미터 설정 및 일반적인 환경에서의 적용 가능성에 대한 추가 연구가 필요하다.