Predicting Empirical AI Research Outcomes with Language Models

작성자

Haebom

카테고리

Empty

저자

Jiaxin Wen, Chenglei Si, Yueh-han Chen, He He, Shi Feng

개요

본 논문은 AI 연구 아이디어의 성공 가능성을 예측하는 시스템을 구축하고, 이를 인간 전문가와 비교 분석한 연구입니다. 1,585개의 인간 검증된 아이디어 쌍(테스트셋)과 6,000개의 쌍(훈련셋)을 사용하여 GPT-4.1 기반 시스템을 개발했습니다. 이 시스템은 논문 검색 에이전트와 결합되어 NLP 분야에서 인간 전문가보다 월등한 성능(64.4% vs 48.9%)을 보였으며, 전체 테스트셋에서는 77%의 정확도를 달성했습니다. 기존 최첨단 LMs는 무작위 추측 수준의 성능만을 보였습니다. 또한, 출판되지 않은 새로운 아이디어에 대해서도 63.6%의 정확도를 달성하여 아이디어 생성 모델 개선을 위한 보상 모델로서의 잠재력을 보여주었습니다.