STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

작성자

Haebom

카테고리

Empty

저자

Shiqi Liu, Zeyu He, Guojian Zhan, Letian Tao, Zhilong Zheng, Jiang Wu, Yinuo Wang, Yang Guan, Kehua Sheng, Bo Zhang, Keqiang Li, Jingliang Duan, Shengbo Eben Li

💡 개요

기존 강화학습 기반 대규모 언어 모델(LLM) 미세 조정 기법은 학습 안정성 확보를 위해 휴리스틱 기법에 의존하지만, 종종 후반부에 성능 저하(collapse)를 겪는 문제를 보입니다. 이는 전체 시퀀스 수준의 보상을 받는 소수의 희귀하면서도 추론 결과에 큰 기여를 하지 않는 "스퓨리어스 토큰"이 과도한 그래디언트 업데이트를 받는 데서 기인합니다. 본 논문은 이러한 스퓨리어스 토큰의 학습 불안정성을 억제하는 STAPO (Spurious-Token-Aware Policy Optimization) 프레임워크를 제안하여, LLM의 안정적이고 효과적인 미세 조정을 달성합니다.

🔑 시사점 및 한계

•

LLM 강화학습에서 학습 불안정성의 주요 원인을 "스퓨리어스 토큰"으로 규명하고, 이를 해결하기 위한 새로운 메커니즘(S2T)을 제시했습니다.

•

제안된 STAPO 프레임워크는 수학적 추론 등 다양한 벤치마크에서 기존 방법론 대비 우수한 성능과 안정성을 보여주었습니다.

•

스퓨리어스 토큰 식별 및 억제 메커니즘의 일반화 가능성 및 다른 종류의 LLM 태스크에 대한 적용 가능성에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage