본 논문은 대규모 언어 모델(LLM)을 데이터 분석 에이전트로 활용하는 데 있어 기존 벤치마크가 데이터 분석가의 반복적인 의사결정 과정을 제대로 반영하지 못하는 점을 지적하며, 다중 라운드 상호작용 시나리오에서 LLM 에이전트를 평가하는 새로운 벤치마크인 IDA-Bench를 제안합니다. 복잡한 Kaggle 노트북에서 파생된 과제들을 LLM이 시뮬레이션한 사용자의 순차적인 자연어 명령어로 제시하고, 에이전트의 최종 수치 출력을 사람이 도출한 기준과 비교하여 성능을 평가합니다. 실험 결과, Claude-3.7-thinking과 같은 최첨단 코딩 에이전트조차 과제의 50% 미만에서 성공하여, 단일 회차 테스트에서는 드러나지 않는 LLM의 한계를 보여줍니다. 따라서, 더욱 신뢰할 수 있는 데이터 분석 에이전트를 구축하기 위해서는 LLM의 다중 라운드 능력 향상과 명령어 준수 및 추론 능력의 균형이 필요함을 강조합니다.