본 논문은 대규모 언어 모델(LLM)이 생성한 데이터 분석 워크플로의 재현성을 자동으로 평가하고 개선하는 프레임워크인 AIRepr을 제시합니다. LLM을 이용한 데이터 분석 자동화에서 다양한 통계적으로 타당한 해결책이 존재하며, 결과뿐 아니라 분석의 추론 과정을 이해하는 것이 중요하다는 점을 강조합니다. AIRepr은 통계적 원칙에 기반하여 확장 가능하고 자동화된 평가를 지원하며, 두 가지 새로운 재현성 향상 프롬프트 전략을 제시하고 15개의 분석가-검사기 LLM 쌍과 세 개의 공개 벤치마크의 1,032개 작업을 통해 기존 프롬프트와 비교 평가합니다. 결과적으로 재현성이 높은 워크플로가 더 정확한 분석 결과를 산출하며, 재현성 향상 프롬프트가 두 지표 모두를 크게 개선함을 보여줍니다. 이는 데이터 과학 분야에서 더 투명하고 신뢰할 수 있으며 효율적인 인간-AI 협업의 기반을 마련합니다.