Shuo Sun, Yimin Zhao, Christina Dao Wen Lee, Jiawei Sun, Chengran Yuan, Zefan Huang, Dongen Li, Justin KW Yeoh, Alok Prakash, Thomas W. Malone, Marcelo H. Ang Jr
개요
본 논문은 인공 일반 지능(AGI) 연구의 발전에 따라 단순한 성능 지표를 넘어서는 포괄적이고 통찰력 있는 평가 체계의 필요성을 강조하며, 시각, 언어, 행동 영역에 걸쳐 개별 테스트 케이스의 난이도와 AI 모델(또는 인간)의 역량을 공동으로 모델링하는 통합된 평가 시스템을 제안합니다. 기존 모델 중심의 지표와 달리, 모델과 과제 간의 경쟁적 상호 작용을 통해 세밀하고 난이도를 고려한 평가를 가능하게 하여 실제 세계 과제의 긴 꼬리 분포와 현재 모델과 완전한 과제 마스터 간의 역량 격차를 모두 포착합니다. 다양한 AGI 영역에 걸쳐 여러 기존 데이터셋과 모델에 대한 광범위한 실험을 통해 시스템의 일반화 가능성과 강건성을 검증하고, 결과적으로 얻어진 평가 분포는 과제 난이도, 모델 발전, 그리고 완전한 AGI 과제 마스터 달성 과정에 남아 있는 난제에 대한 새로운 관점과 해석 가능한 통찰력을 제공합니다.