MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?
Created by
Haebom
저자
Yunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang
개요
본 논문은 기존의 대규모 언어 모델(LLM) 에이전트의 과학적 발견 능력 평가가 객관적인 기준과 척도를 부족하다는 문제를 해결하기 위해, 머신러닝(ML) 연구 경진 대회를 활용한 새로운 벤치마크인 MLRC-Bench를 제안한다. MLRC-Bench는 기존 벤치마크들과 달리, 충분한 엔지니어링으로 해결 가능한 기존 연구 과제가 아닌, 새로운 방법론을 필요로 하는 개방형 연구 문제에 초점을 맞춘다. LLM 에이전트의 연구 제안 및 구현 능력을 엄격한 프로토콜과 객관적인 척도로 평가하며, 7개의 경진 대회 과제를 통해 LLM 에이전트의 한계를 보여준다. 최고 성능의 에이전트조차도 인간 참가자 최고 성적과의 격차를 9.3%만 줄이는 데 그쳤고, LLM의 혁신성 평가와 실제 성능 간의 불일치도 드러났다. MLRC-Bench는 새로운 ML 경진 대회가 추가됨에 따라 지속적으로 확장되는 동적인 벤치마크이다.
시사점, 한계점
•
시사점:
◦
LLM 에이전트의 과학적 발견 능력 평가를 위한 객관적인 벤치마크(MLRC-Bench) 제시
◦
기존 벤치마크의 한계를 극복하고, 새로운 방법론을 요구하는 개방형 연구 문제에 초점
◦
LLM 에이전트의 실제 연구 능력에 대한 엄격하고 객관적인 평가 제공
◦
LLM의 자체 평가(혁신성)와 실제 성능 간의 불일치를 밝힘
◦
지속적으로 발전하는 동적인 벤치마크를 통해 AI 연구 능력 평가의 꾸준한 발전 가능성 제시
•
한계점:
◦
현재 벤치마크에 포함된 과제 수가 7개로 상대적으로 적음.
◦
최고 성능 에이전트조차 인간 수준에 크게 미치지 못함으로써, LLM 에이전트의 과학적 발견 능력의 현저한 한계를 보여줌.
◦
LLM-judged innovation과 실제 성능 간의 불일치 원인에 대한 심층적인 분석이 부족.