AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

Author

Haebom

저자

An Luo, Jin Du, Xun Xian, Robert Specht, Fangqiao Tian, Ganghua Wang, Xuan Bi, Charles Fleming, Ashish Kundu, Jayanth Srinivasa, Mingyi Hong, Rui Zhang, Tianxi Li, Galin Jones, Jie Ding

💡 개요

본 논문은 도메인 특화 데이터 사이언스 작업에서 인간과 AI 협업의 미래를 평가하기 위한 벤치마크 및 대회인 AgentDS를 소개합니다. 상업, 식품 생산, 의료 등 6개 산업에 걸친 17개의 도전 과제를 통해 AI 에이전트 단독 성능과 인간-AI 협업 성능을 비교했습니다. 결과적으로 현재 AI 에이전트는 도메인 특화 추론에 어려움을 겪고 있으며, 인간-AI 협업이 가장 뛰어난 성과를 보였습니다.

🔑 시사점 및 한계

•

현재 AI 에이전트만으로는 도메인 특화 데이터 사이언스 작업에서 인간 전문가의 성능을 따라잡기 어렵습니다.

•

데이터 사이언스 분야에서 인간의 전문성은 여전히 중요한 역할을 하며, AI와의 협업을 통해 시너지를 창출할 수 있습니다.

•

향후 AI 개발은 도메인 특화 추론 능력 강화 및 인간과의 효과적인 협업 방안 모색에 초점을 맞춰야 합니다.

PDF 보기

Made with Slashpage