본 논문은 대규모 언어 모델(LLM)을 사용하여 레지스터 전달 레벨(RTL) 코드를 생성하는 문제를 다룹니다. 기존 방법들은 기능적 정확성과 하드웨어 품질(전력, 성능, 면적 - PPA)을 동시에 최적화하는 데 어려움을 겪습니다. 지도 학습 기반 미세 조정 방법은 기능적으로 정확하지만 PPA 최적화가 부족하고, 후처리 기법은 LLM 매개변수를 업데이트하지 않아 효율적이지 않습니다. 이를 해결하기 위해 본 논문에서는 계층적 보상 기반 강화 학습 프레임워크인 ChipSeek-R1을 제시합니다. ChipSeek-R1은 구문, 기능적 정확성(시뮬레이터를 통해), PPA 지표(합성 도구를 통해)에 대한 직접적인 피드백을 통합하여 LLM이 시행착오를 통해 복잡한 하드웨어 설계 트레이드오프를 학습하고 기능적으로 정확하고 PPA가 최적화된 RTL 코드를 생성하도록 합니다. VerilogEval 및 RTLLM 벤치마크에서 평가한 결과, 기능적 정확성에 있어 최첨단 결과를 달성했으며, RTLLM 벤치마크에서는 27개의 RTL 설계에서 기존 사람이 작성한 코드보다 PPA 지표가 우수한 결과를 얻었습니다.
시사점, 한계점
•
시사점:
◦
LLM을 이용한 RTL 코드 자동 생성에서 기능적 정확성과 PPA 최적화를 동시에 달성하는 새로운 방법 제시
◦
계층적 보상 기반 강화 학습을 통해 LLM이 하드웨어 설계 트레이드오프를 학습하고 사람이 작성한 코드를 능가하는 결과를 얻음
◦
툴체인 피드백을 LLM 학습에 통합하는 효과를 입증
◦
오픈소스 공개를 통한 연구 확산 및 재현성 확보
•
한계점:
◦
벤치마크의 규모 및 다양성에 대한 추가적인 검증 필요
◦
더욱 복잡하고 대규모의 RTL 설계에 대한 적용 가능성 및 성능 검증 필요
◦
ChipSeek-R1의 일반화 성능 및 다양한 아키텍처에 대한 적응성에 대한 추가 연구 필요