본 논문은 라벨링된 데이터 없이 엔트로피 최소화(EM)만을 사용하여 대규모 언어 모델(LLM)의 수학, 물리, 코딩 과제 성능을 크게 향상시킬 수 있음을 보여줍니다. 세 가지 접근 방식, 즉 EM-FT(instruction finetuning과 유사하게 토큰 수준 엔트로피를 최소화), EM-RL(음의 엔트로피를 보상으로 사용하는 강화 학습), EM-INF(추론 시 로그 확률 조정을 통한 엔트로피 감소)을 제시합니다. 특히, EM-RL은 6만 개의 라벨링된 예제로 학습된 강화 학습 기준 모델(GRPO, RLOO)과 비슷하거나 더 나은 성능을 달성했으며, EM-INF는 Qwen-32B 모델의 SciCode 벤치마크 성능을 GPT-4o, Claude 3 Opus, Gemini 1.5 Pro 등의 독점 모델 수준으로 끌어올렸습니다. 이는 사전 훈련된 LLM이 라벨링된 데이터나 파라미터 업데이트 없이도 엔트로피 최소화를 통해 효과적으로 추론 능력을 발휘할 수 있음을 시사합니다.