TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

Created by

Haebom

저자

Mykola Pinchuk

💡 개요

본 논문은 Kaggle 스타일의 테이블 데이터 머신러닝 과제에서 데이터 과학 에이전트의 실질적인 유용성을 평가하기 위해 TML-Bench라는 새로운 벤치마크를 제안합니다. 10개의 오픈소스 LLM을 네 가지 Kaggle 대회와 세 가지 시간 제약 조건 하에서 평가하여, 에이전트가 시간 내에 유효한 제출물을 생성하고 숨겨진 데이터에 대한 점수를 얻는 성공률을 측정했습니다. 결과적으로 MiniMax-M2.1 모델이 가장 우수한 성능을 보였으며, 시간 예산이 늘어날수록 전반적인 성능이 향상되는 경향을 확인했습니다.

🔑 시사점 및 한계

•

Kaggle 스타일 테이블 데이터 과제에서 자율 코딩 에이전트의 종단 간 정확성과 시간 제약 조건 하에서의 신뢰성이 실질적인 가치에 중요함을 시사합니다.

•

시간이 지남에 따라 에이전트의 성능이 향상될 수 있음을 보여주며, 더 긴 시간 예산이 모델의 평균 성능을 개선하는 데 기여할 수 있음을 나타냅니다.

•

현재 실행 횟수로는 일부 개별 모델의 확장성(scaling)이 불안정하며, 모델의 일관적인 성능을 보장하기 위해서는 추가적인 실행 횟수나 다른 평가 방법이 필요할 수 있습니다.

PDF 보기

Made with Slashpage