Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EARL: Entropy-Aware RL Alignment of LLMs for Reliable RTL Code Generation

Created by
  • Haebom
Category
Empty

저자

Jiahe Shi, Zhengqi Gao, Ching-Yun Ko, Duane Boning

EARL: Entropy-Aware Reinforcement Learning for Verilog Generation

개요

대규모 언어 모델(LLM)의 발전은 하드웨어 설계 자동화, 특히 자연어를 사용하여 레지스터-전송 레벨(RTL) 코드를 합성하는 데 상당한 잠재력을 보여주었습니다. 하지만 문법 오류, 기능적 환각, 설계자 의도와의 약한 정렬 등 실제 RTL 설계 요구 사항과 모델 능력 간의 격차가 존재합니다. Verifiable Rewards를 사용한 강화 학습(RLVR)은 이 격차를 해소하는 유망한 접근 방식을 제공합니다. 하지만 긴 구조화된 RTL 코드 시퀀스에서 모든 토큰이 동일하게 기능적 정확성에 기여하지 않으며, 모든 토큰에 무분별하게 기울기를 분산시키는 것은 학습 신호를 약화시킵니다. 본 논문에서는 Verilog 생성의 엔트로피 분석을 통해 소수의 토큰(예: always, if, assign, posedge)만이 높은 불확실성을 보이며 제어 흐름 및 모듈 구조에 크게 영향을 미친다는 것을 발견했습니다. 이러한 문제를 해결하기 위해, 본 논문은 검증 가능한 보상 신호를 사용하여 정책 최적화를 수행하고, 높은 엔트로피 토큰에 정책 기울기를 제한하는 엔트로피 기반 선택적 업데이트를 도입하는 EARL(Entropy-Aware Reinforcement Learning) 프레임워크를 제안합니다. EARL은 불필요한 업데이트를 줄이고, 학습 안정성을 향상시킵니다. VerilogEval 및 RTLLM 실험에서 EARL은 기존 LLM 기반 모델보다 최대 14.7%까지 기능 통과율을 향상시켰습니다.

시사점, 한계점

시사점:
높은 엔트로피 토큰에 RL을 집중하는 것이 구조화된 RTL 코드 생성에 있어 더 신뢰할 수 있고 목표 지향적인 정책 개선을 가능하게 함.
EARL 프레임워크는 Verilog 코드 생성의 기능 통과율을 향상시킴.
불필요한 업데이트를 줄이고 학습 안정성을 향상시킴.
한계점:
논문에 명시된 한계점은 없음.
👍