본 논문은 대규모 Verilog 코드 개발을 위해 LLMs(대규모 언어 모델)을 활용하는 획기적인 솔루션인 RTLRepoCoder를 제안한다. 기존 연구들이 단순한 단일 모듈 생성에 집중한 것과 달리, RTLRepoCoder는 장문의 RTL 코드 관리 및 복잡한 파일 간 의존성 문제를 해결하여 실제 하드웨어 개발에 필요한 대규모 Verilog 저장소를 처리할 수 있다. 실제 세계의 오픈소스 Verilog 저장소와 확장된 컨텍스트 크기를 사용하여 도메인 특화 미세 조정을 수행하고, 관련 코드 조각을 검색하는 최적화된 RAG(Retrieval-Augmented Generation) 시스템을 통해 입력 컨텍스트의 정보 밀도를 향상시킨다. 임베딩 모델, 파일 간 컨텍스트 분할 전략, 청크 크기 등 RAG에 대한 맞춤형 최적화를 수행하여 공개 벤치마크에서 최첨단 성능을 달성하며, GPT-4 및 고급 도메인 특화 LLMs를 Edit Similarity 및 Exact Match율에서 크게 능가한다.