본 논문은 시스템 다이내믹스(SD) 모델링에 인공지능(AI)을 활용하는 과정에서 발생할 수 있는 편향성과 불확실성을 해결하기 위해, AI 기반 SD 모델 생성 도구의 평가를 위한 두 가지 지표(기술적 정확성 및 지시사항 준수)를 제시한다. 오픈소스 프로젝트인 sd-ai를 개발하여 AI 기반 도구(예: ChatGPT)를 활용한 동적 모델링을 위한 협업 기반을 마련하고, 이 도구들을 평가하기 위한 포괄적인 테스트 세트를 개발했다. 11개의 대규모 언어 모델(LLM)을 평가한 결과, gpt-4.5-preview가 가장 높은 정확도를 보였으며, o1은 인과 관계 번역에서 완벽한 점수를 기록했다. 하지만 gpt-4o는 비용 효율성이 높았다. AI 기반 SD 모델링 도구 개발의 책임 있는 발전을 위해 지속적인 평가와 이해 관계자 간의 협력을 강조한다.