Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation

Created by
  • Haebom

저자

Jiajun Shi, Jian Yang, Jiaheng Liu, Xingyuan Bu, Jiangjie Chen, Junting Zhou, Kaijing Ma, Zhoufutu Wen, Bingli Wang, Yancheng He, Liang Song, Hualei Zhu, Shilong Li, Xingjian Wang, Wei Zhang, Ruibin Yuan, Yifan Yao, Wenjun Yang, Yunli Wang, Siyuan Fang, Siyu Yuan, Qianyu He, Xiangru Tang, Yingshui Tan, Wangchunshu Zhou, Zhaoxiang Zhang, Zhoujun Li, Wenhao Huang, Ge Zhang

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 정확하게 평가하기 위한 포괄적인 평가 방법의 필요성을 강조하며, 기존 벤치마크의 한계를 극복하기 위해 새로운 동적 평가 플랫폼인 Knowledge Orthogonal Reasoning Gymnasium (KORGym)을 제시합니다. KORGym은 텍스트 또는 시각적 형식의 50개 이상의 게임을 제공하며, 강화 학습 시나리오를 포함한 대화형 다회차 평가를 지원합니다. 19개의 LLM과 8개의 VLM을 대상으로 실험을 수행하여 모델 패밀리 내 일관된 추론 패턴을 밝히고, 독점 모델의 우수한 성능을 보여줍니다. 또한, 모달리티, 추론 전략, 강화 학습 기법, 응답 길이가 모델 성능에 미치는 영향을 분석합니다. KORGym은 복잡하고 상호 작용적인 환경에 적합한 평가 방법론을 개발하고 LLM 추론 연구를 발전시키는 데 귀중한 자원이 될 것으로 기대됩니다.

시사점, 한계점

시사점:
기존의 도메인 특화된 벤치마크의 한계를 극복하는 새로운 동적 평가 플랫폼 KORGym을 제시.
다양한 모달리티(텍스트, 시각)와 상호작용적 다회차 평가 지원을 통해 LLM의 추론 능력을 더욱 포괄적으로 평가 가능.
19개 LLM과 8개 VLM에 대한 실험을 통해 모델 패밀리 내 추론 패턴과 독점 모델의 우수성을 확인.
모달리티, 추론 전략, 강화 학습 기법, 응답 길이 등 다양한 요소가 모델 성능에 미치는 영향 분석.
LLM 추론 연구 및 평가 방법론 발전에 기여할 잠재력.
한계점:
KORGym의 게임 수가 아직 제한적일 수 있음.
독점 모델의 우수성을 보였으나, 그 이유에 대한 심층적인 분석이 부족할 수 있음.
특정 유형의 추론 능력에 편향되어 있을 가능성.
평가 플랫폼 자체의 설계 및 구현에 대한 자세한 설명이 부족할 수 있음.
👍