자율 머신 러닝 (ML) 에이전트 개발은 AI 분야의 중요한 과제이며, 데이터 분석, 특징 엔지니어링, 모델 선택, 하이퍼파라미터 최적화 등 복잡한 워크플로우를 처리해야 한다. 대규모 언어 모델 (LLM)을 활용한 직접 코드 생성 방식 대신, 도구 활용 방식이 더 높은 모듈성과 신뢰성을 제공한다. 본 연구에서는 61개의 전문 도구와 15개의 Kaggle 기반 표 형식 ML 챌린지를 사용하여 도구 기반 ML 에이전트를 평가하는 포괄적인 벤치마크를 제시한다. 이 벤치마크는 에이전트가 워크플로우 전체에서 중간 결과를 유연하게 이름 지정, 저장 및 검색할 수 있도록 메모리 내 객체 관리를 통합한다. ReAct 스타일 접근 방식이 복잡한 ML 파이프라인에 대한 유효한 도구 시퀀스를 생성하는 데 어려움을 겪고, 트리 검색 방법이 일관성 없는 상태 점수로 인해 성능이 저조함을 확인했다. 이러한 문제를 해결하기 위해, 구조화된 텍스트 피드백과 함께 모양이 지정된 결정적 보상을 사용하는 방법과, 원래 문제를 일련의 하위 작업으로 분해하는 두 가지 간단한 접근 방식을 제안했다. GPT-4o를 사용하여 제안된 방법은 ReAct보다 16.52 백분위수 향상을 보였다.