Sign In

TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

Created by
  • Haebom
Category
Empty

μ €μž

Mykola Pinchuk

πŸ’‘ κ°œμš”

λ³Έ 논문은 Kaggle μŠ€νƒ€μΌμ˜ ν…Œμ΄λΈ” 데이터 λ¨Έμ‹ λŸ¬λ‹ κ³Όμ œμ—μ„œ 데이터 κ³Όν•™ μ—μ΄μ „νŠΈμ˜ μ‹€μ§ˆμ μΈ μœ μš©μ„±μ„ ν‰κ°€ν•˜κΈ° μœ„ν•΄ TML-BenchλΌλŠ” μƒˆλ‘œμš΄ 벀치마크λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 10개의 μ˜€ν”ˆμ†ŒμŠ€ LLM을 λ„€ κ°€μ§€ Kaggle λŒ€νšŒμ™€ μ„Έ κ°€μ§€ μ‹œκ°„ μ œμ•½ 쑰건 ν•˜μ—μ„œ ν‰κ°€ν•˜μ—¬, μ—μ΄μ „νŠΈκ°€ μ‹œκ°„ 내에 μœ νš¨ν•œ μ œμΆœλ¬Όμ„ μƒμ„±ν•˜κ³  μˆ¨κ²¨μ§„ 데이터에 λŒ€ν•œ 점수λ₯Ό μ–»λŠ” 성곡λ₯ μ„ μΈ‘μ •ν–ˆμŠ΅λ‹ˆλ‹€. 결과적으둜 MiniMax-M2.1 λͺ¨λΈμ΄ κ°€μž₯ μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ˜€μœΌλ©°, μ‹œκ°„ μ˜ˆμ‚°μ΄ λŠ˜μ–΄λ‚ μˆ˜λ‘ μ „λ°˜μ μΈ μ„±λŠ₯이 ν–₯μƒλ˜λŠ” κ²½ν–₯을 ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
Kaggle μŠ€νƒ€μΌ ν…Œμ΄λΈ” 데이터 κ³Όμ œμ—μ„œ 자율 μ½”λ”© μ—μ΄μ „νŠΈμ˜ 쒅단 κ°„ μ •ν™•μ„±κ³Ό μ‹œκ°„ μ œμ•½ 쑰건 ν•˜μ—μ„œμ˜ 신뒰성이 μ‹€μ§ˆμ μΈ κ°€μΉ˜μ— μ€‘μš”ν•¨μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
μ‹œκ°„μ΄ 지남에 따라 μ—μ΄μ „νŠΈμ˜ μ„±λŠ₯이 ν–₯상될 수 μžˆμŒμ„ 보여주며, 더 κΈ΄ μ‹œκ°„ μ˜ˆμ‚°μ΄ λͺ¨λΈμ˜ 평균 μ„±λŠ₯을 κ°œμ„ ν•˜λŠ” 데 κΈ°μ—¬ν•  수 μžˆμŒμ„ λ‚˜νƒ€λƒ…λ‹ˆλ‹€.
β€’
ν˜„μž¬ μ‹€ν–‰ νšŸμˆ˜λ‘œλŠ” 일뢀 κ°œλ³„ λͺ¨λΈμ˜ ν™•μž₯μ„±(scaling)이 λΆˆμ•ˆμ •ν•˜λ©°, λͺ¨λΈμ˜ 일관적인 μ„±λŠ₯을 보μž₯ν•˜κΈ° μœ„ν•΄μ„œλŠ” 좔가적인 μ‹€ν–‰ νšŸμˆ˜λ‚˜ λ‹€λ₯Έ 평가 방법이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘