본 논문은 자동차의 ADAS 또는 AD 시스템 개발에 대규모 언어 모델(LLM)을 활용하는 데 따른 위험성을 체계적으로 평가하고, LLM이 생성한 코드의 검토 작업을 줄이기 위한 평가 파이프라인을 제안합니다. 6개의 최신 LLM(CodeLlama, CodeGemma, DeepSeek-r1, DeepSeek-Coders, Mistral, GPT-4)을 4가지 안전 관련 프로그래밍 작업에 적용하여 성능을 비교하고, 각 LLM이 생성하는 일반적인 오류를 분석하여 오류 모드 목록을 작성합니다. 마지막으로, 코드 생성에서 LLM의 한계와 기능, 그리고 제안된 파이프라인의 활용 가능성을 논의합니다.