본 논문은 대규모 언어 모델(LLM)을 데이터 분석 에이전트로 활용하는 데 있어 기존 벤치마크의 한계를 지적하며, 반복적인 상호작용 과정을 고려한 새로운 벤치마크 IDA-Bench를 제시합니다. IDA-Bench는 복잡한 Kaggle 노트북에서 파생된 과제를 LLM이 시뮬레이션한 사용자의 순차적인 자연어 명령어로 제시하고, 에이전트의 최종 수치 결과를 사람이 도출한 결과와 비교하여 성능을 평가합니다. 실험 결과, Claude-3.7-thinking과 같은 최첨단 코딩 에이전트조차 과제의 50% 미만에서 성공하여, 단일 회차 테스트에서는 드러나지 않았던 LLM의 한계를 보여줍니다. 따라서 본 연구는 신뢰할 수 있는 데이터 분석 에이전트를 구축하기 위해 LLM의 다회차 상호작용 능력 향상 및 명령어 준수와 추론 간의 균형 달성이 필요함을 강조합니다.