Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning

Created by
  • Haebom

저자

Shivam Agarwal, Zimin Zhang, Lifan Yuan, Jiawei Han, Hao Peng

개요

본 논문은 라벨링된 데이터 없이 엔트로피 최소화(EM)만을 사용하여 대규모 언어 모델(LLM)의 수학, 물리, 코딩 과제 성능을 크게 향상시킬 수 있음을 보여줍니다. 세 가지 접근 방식, 즉 EM-FT(instruction finetuning과 유사하게 토큰 수준 엔트로피를 최소화), EM-RL(음의 엔트로피를 보상으로 사용하는 강화 학습), EM-INF(추론 시 로그 확률 조정을 통한 엔트로피 감소)을 제시합니다. 특히, EM-RL은 6만 개의 라벨링된 예제로 학습된 강화 학습 기준 모델(GRPO, RLOO)과 비슷하거나 더 나은 성능을 달성했으며, EM-INF는 Qwen-32B 모델의 SciCode 벤치마크 성능을 GPT-4o, Claude 3 Opus, Gemini 1.5 Pro 등의 독점 모델 수준으로 끌어올렸습니다. 이는 사전 훈련된 LLM이 라벨링된 데이터나 파라미터 업데이트 없이도 엔트로피 최소화를 통해 효과적으로 추론 능력을 발휘할 수 있음을 시사합니다.

시사점, 한계점

시사점:
라벨링된 데이터 없이 엔트로피 최소화만으로 LLM의 성능을 크게 향상시킬 수 있음을 입증.
EM-RL은 기존 강화학습 기반 모델과 비교하여 유사하거나 더 나은 성능을 보임.
EM-INF는 추론 시간에 엔트로피를 감소시켜 효율적으로 성능을 향상시킴.
사전 훈련된 LLM의 잠재된 추론 능력을 효과적으로 활용할 수 있는 새로운 방법 제시.
데이터 효율성 측면에서 기존 방법보다 우수한 성능을 보임.
한계점:
제시된 방법의 일반화 성능에 대한 추가적인 연구 필요.
특정 모델(Qwen)에 대한 결과이며, 다른 모델에 대한 일반화 가능성 검증 필요.
엔트로피 최소화의 이론적 근거에 대한 심층적인 분석 필요.
다양한 과제 및 벤치마크에 대한 추가적인 실험 필요.
👍