본 논문은 대규모 언어 모델(LLM)의 코드 생성 능력을 다양한 실제 응용 분야에서 체계적으로 평가하기 위한 다중 도메인 코드 생성 벤치마크인 DomainCodeBench를 제시합니다. 12개의 소프트웨어 응용 도메인과 15개의 프로그래밍 언어를 포함하는 2,400개의 수동으로 검증된 작업으로 구성되어 있으며, 각 작업에는 정답, 사람이 주석을 단 docstrings, 그리고 세분화된 종속성 정보가 포함되어 있습니다. 10개의 주요 LLM을 대상으로 한 실험을 통해 일반 도메인에서 우수한 성능을 보이는 모델이 특정 응용 도메인에서도 항상 우수한 성능을 보이는 것은 아니라는 점(성능 분리), LLM이 도메인 지식 부족과 타사 라이브러리 오용으로 인해 종종 실패한다는 점(도메인 특정 약점), 그리고 도메인 특정 지식을 프롬프트에 추가하면 성능이 약 38.17% 향상된다는 점(맥락적 향상)을 발견했습니다. 본 연구의 복제 패키지는 GitHub에서 공개됩니다.