Holder Policy Optimisation

작성자

Haebom

카테고리

Empty

저자

Yuxiang Chen, Dingli Liang, Yihang Chen, Ziqin Gong, Chenyang Le, Zhaokai Wang, Jiachen Zhu, Lingyu Yang, Jianghao Lin, Weinan Zhang, Jun Wang

💡 개요

본 연구는 대규모 언어 모델의 학습 안정성과 성능을 저해하는 고정된 토큰 수준 확률 집계 방식의 한계를 극복하고자 합니다. 이를 위해 H{o}lder 평균을 이용한 일반화된 정책 최적화 프레임워크인 H{o}lderPO를 제안합니다. H{o}lderPO는 H{o}lder 평균의 매개변수 $p$를 조절하여 경사도 집중과 분산 제어 간의 균형을 동적으로 조절함으로써 기존 방법론보다 우수한 안정성과 수렴 성능을 달성합니다.

🔑 시사점 및 한계

•

H{o}lder 평균을 활용한 유연한 토큰 수준 확률 집계는 학습 안정성을 크게 향상시킵니다.

•

동적 $p$ 값 스케줄링 알고리즘은 훈련 과정 전반에 걸쳐 최적의 성능을 이끌어냅니다.

•

특정 집계 방식에 국한되지 않고, 다양한 학습 시나리오에 맞춰 최적화할 수 있는 일반화된 프레임워크를 제공합니다.

•

H{o}lder 평균의 매개변수 $p$를 동적으로 결정하는 최적의 스케줄링 전략에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage