On Benchmarking Human-Like Intelligence in Machines
Created by
Haebom
Category
Empty
저자
Lance Ying, Katherine M. Collins, Lionel Wong, Ilia Sucholutsky, Ryan Liu, Adrian Weller, Tianmin Shu, Thomas L. Griffiths, Joshua B. Tenenbaum
개요
본 논문은 최근 AI가 다양한 인지 과제에서 인간 수준의 성능에 도달하거나 능가했다는 벤치마크 연구 결과에 대해, 현재의 AI 평가 패러다임은 인간과 같은 인지 능력을 평가하기에 부적절하다고 주장한다. 인간 검증된 레이블 부족, 인간 반응의 변동성과 불확실성에 대한 불충분한 고려, 단순화되고 생태학적으로 타당하지 않은 과제에 대한 의존 등의 주요 결함을 제시한다. 10개의 기존 AI 벤치마크에 대한 인간 평가 연구를 통해 과제 및 레이블 설계의 상당한 편향과 결함을 보여주며, 인간과 같은 인지 능력을 더욱 엄격하고 의미 있게 평가할 수 있는 미래 벤치마크 개발을 위한 다섯 가지 구체적인 권장 사항을 제시한다.
시사점, 한계점
•
시사점: 현재 AI 벤치마크의 한계를 명확히 밝히고, 인간과 같은 인지 능력을 제대로 평가하기 위한 새로운 벤치마크 개발 방향을 제시함으로써, AI 연구의 발전 방향을 제시한다. 더욱 엄격하고 의미 있는 AI 평가 기준 마련에 기여할 수 있다. 다양한 AI 어플리케이션에 대한 함의를 제시한다.
•
한계점: 제시된 5가지 권장 사항의 실제 구현 가능성 및 효과에 대한 검증이 부족하다. 제안된 벤치마크 개발 및 평가 방법의 구체적인 절차와 방법론에 대한 설명이 부족하다. 인간 평가 연구의 참가자 수 및 표본의 대표성에 대한 자세한 설명이 필요하다.