강화 학습 기반의 대규모 언어 모델 추론 능력 향상 연구에서, 토큰 엔트로피를 활용한 RLVR(Reinforcement Learning with Verifiable Rewards)의 한계를 지적하고, 정확성에 기반한 저(低) 엔트로피 세그먼트의 중요성을 강조합니다. 본 논문은 정확한 응답에서 공통적으로 나타나는 저 엔트로피 세그먼트의 높은 상관관계를 발견하고, 이를 활용한 새로운 강화 학습 프레임워크 LESS를 제안합니다. LESS는 정확한 응답에만 나타나는 세그먼트를 강화하고, 잘못된 응답에만 나타나는 세그먼트를 억제하며, 두 응답 모두에 나타나는 세그먼트는 중립화합니다. GRPO를 기반으로 구현된 LESS는 다양한 모델 및 수학 벤치마크에서 기존 RL 기반 모델보다 높은 정확도를 보이며, 성능 안정성을 향상시켰습니다.