대규모 언어 모델(LLM)의 발전은 하드웨어 설계 자동화, 특히 자연어를 사용하여 레지스터-전송 레벨(RTL) 코드를 합성하는 데 상당한 잠재력을 보여주었습니다. 하지만 문법 오류, 기능적 환각, 설계자 의도와의 약한 정렬 등 실제 RTL 설계 요구 사항과 모델 능력 간의 격차가 존재합니다. Verifiable Rewards를 사용한 강화 학습(RLVR)은 이 격차를 해소하는 유망한 접근 방식을 제공합니다. 하지만 긴 구조화된 RTL 코드 시퀀스에서 모든 토큰이 동일하게 기능적 정확성에 기여하지 않으며, 모든 토큰에 무분별하게 기울기를 분산시키는 것은 학습 신호를 약화시킵니다. 본 논문에서는 Verilog 생성의 엔트로피 분석을 통해 소수의 토큰(예: always, if, assign, posedge)만이 높은 불확실성을 보이며 제어 흐름 및 모듈 구조에 크게 영향을 미친다는 것을 발견했습니다. 이러한 문제를 해결하기 위해, 본 논문은 검증 가능한 보상 신호를 사용하여 정책 최적화를 수행하고, 높은 엔트로피 토큰에 정책 기울기를 제한하는 엔트로피 기반 선택적 업데이트를 도입하는 EARL(Entropy-Aware Reinforcement Learning) 프레임워크를 제안합니다. EARL은 불필요한 업데이트를 줄이고, 학습 안정성을 향상시킵니다. VerilogEval 및 RTLLM 실험에서 EARL은 기존 LLM 기반 모델보다 최대 14.7%까지 기능 통과율을 향상시켰습니다.