Sign In

OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI

Created by
  • Haebom
Category
Empty

저자

Zhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu

개요

본 논문은 인공지능(AI)의 인지 추론 능력 평가를 위한 새로운 벤치마크인 OlympicArena를 제시합니다. OlympicArena는 텍스트와 이미지를 포함한 11,163개의 이중 언어 문제를 제공하며, 7개 분야 62개의 국제 올림픽 경기 종목에 걸쳐 다양한 학문 분야를 아우릅니다. 데이터 유출을 철저히 검증하였으며, 복잡하고 학제적인 올림픽 문제의 특성이 복잡한 과학적 문제 해결 및 발견에 필수적이라는 점을 강조합니다. GPT-4o와 같은 최첨단 모델의 정확도가 39.97%에 불과함을 보여주며, 현재 AI의 복잡한 추론 및 다중 모드 통합의 한계를 강조합니다. OlympicArena는 벤치마크 데이터셋, 오픈소스 주석 플랫폼, 상세한 평가 도구, 자동 제출 기능을 갖춘 리더보드 등의 포괄적인 자원을 제공하여 AI 연구를 지원합니다.

시사점, 한계점

시사점:
인지 추론 능력 평가를 위한 새로운 벤치마크인 OlympicArena 제시
다양한 학문 분야와 모달리티를 포함한 광범위한 문제 제공
최첨단 AI 모델의 인지 추론 능력 한계를 명확히 제시
AI 연구를 위한 포괄적인 자원 제공 (데이터셋, 플랫폼, 도구, 리더보드)
AI의 초지능(superintelligence)으로의 발전을 위한 기여
한계점:
GPT-4o를 포함한 최첨단 모델의 정확도가 여전히 낮음 (39.97%)
OlympicArena의 문제가 실제 과학적 문제 해결과 얼마나 잘 연관되는지에 대한 추가 연구 필요
다양한 AI 모델의 성능 비교 분석에 대한 추가 연구 필요
👍