Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control

Created by
  • Haebom
Category
Empty

저자

Kai Yang, Xin Xu, Yangkun Chen, Weijie Liu, Jiafei Lyu, Zichuan Lin, Deheng Ye, Saiyong Yang

개요

대규모 언어 모델(LLM)의 장기 훈련은 모델이 부적절한 행동으로 붕괴되는 것을 방지하기 위해 안정적인 탐색을 유지해야 한다. 엔트로피는 탐색을 제어하고 조기 수렴을 방지하는 데 중요하다. 기존의 강화 학습 방법은 양성 및 음성 샘플의 혼합으로 인해 엔트로피 유지에 어려움을 겪는다. 본 논문은 양성 및 음성 샘플의 손실 계수를 동적으로 조정하여 샘플의 영향을 적응적으로 조절하는 새로운 방법인 EntroPIC(Entropy stabilization via Proportional-Integral Control)를 제안한다. EntroPIC는 훈련 전반에 걸쳐 엔트로피를 안정화하여 효율적인 탐색과 꾸준한 진행을 보장한다. On-policy 및 off-policy 학습 설정 모두에 대한 포괄적인 이론적 분석을 제공하며, EntroPIC가 대규모 LLM 훈련에서 엔트로피를 효과적으로 제어함을 보여준다. 실험 결과는 제안된 방법이 원하는 엔트로피 수준을 성공적으로 유지하여 LLM에 대한 안정적이고 최적의 RL 훈련을 가능하게 함을 보여준다.

시사점, 한계점

EntroPIC는 LLM 훈련 중 엔트로피를 안정화하여 탐색을 효율적으로 유지하고 모델의 성능 향상에 기여한다.
EntroPIC는 양성 및 음성 샘플의 손실 계수를 동적으로 조정하여 훈련 과정에서 엔트로피를 제어한다.
On-policy 및 off-policy 학습 설정 모두에 대한 이론적 분석을 제공하여 방법의 효과를 뒷받침한다.
실험을 통해 EntroPIC가 원하는 엔트로피 수준을 유지하며, 안정적인 RL 훈련을 가능하게 함을 입증한다.
본 논문에서는 EntroPIC의 구현 및 특정 LLM 모델에서의 적용에 대한 자세한 내용은 언급하지 않았다.
실험 결과가 다양한 LLM 아키텍처 및 작업에 일반화될 수 있는지에 대한 추가 연구가 필요하다.
👍