How Can Reinforcement Learning Achieve Expert-level Placement?

Author

Haebom

저자

Ruo-Tong Chen, Ke Xue, Chengrui Gao, Yunqi Shi, Tian Xu, Peng Xie, Siyuan Xu, Mingxuan Yuan, Chao Qian, Zhi-Hua Zhou

💡 개요

기존 강화학습 기반 칩 배치 방법은 주로 배선 길이 최적화에 초점을 맞춰 전문가 수준의 배치를 달성하지 못했습니다. 본 연구는 전문가 레이아웃에서 직접 보상 모델을 학습함으로써 이러한 격차를 해소합니다. 제안된 방법은 전문가 레이아웃으로부터 단계별 궤적을 추론하고, 이를 활용하여 전문가 결과에 내재된 암묵적인 보상을 포착하는 모델을 훈련합니다.

🔑 시사점 및 한계

•

단 한 번의 설계 데이터로도 효율적으로 학습이 가능하며, 새로운 설계에도 잘 일반화됩니다.

•

복잡한 프로세스를 명시적으로 공식화하는 대신 전문가 데이터에서 직접 보상 함수를 학습함으로써 실용적인 접근 방식을 제시합니다.

•

제안된 보상 모델이 다른 칩 설계 작업이나 평가 지표에 얼마나 잘 적용될 수 있는지에 대한 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage