Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation

Created by
  • Haebom

저자

Jiajun Shi, Jian Yang, Jiaheng Liu, Xingyuan Bu, Jiangjie Chen, Junting Zhou, Kaijing Ma, Zhoufutu Wen, Bingli Wang, Yancheng He, Liang Song, Hualei Zhu, Shilong Li, Xingjian Wang, Wei Zhang, Ruibin Yuan, Yifan Yao, Wenjun Yang, Yunli Wang, Siyuan Fang, Siyu Yuan, Qianyu He, Xiangru Tang, Yingshui Tan, Wangchunshu Zhou, Zhaoxiang Zhang, Zhoujun Li, Wenhao Huang, Ge Zhang

개요

대규모 언어 모델(LLM)의 추론 능력을 정확하게 평가하기 위한 포괄적인 평가 방법의 필요성이 커지고 있습니다. 기존 벤치마크는 종종 특정 영역에 국한되어 LLM의 일반적인 추론 잠재력을 완전히 포착하지 못합니다. 이러한 한계를 해결하기 위해, 본 논문에서는 KOR-Bench와 Gymnasium에서 영감을 받은 동적인 평가 플랫폼인 지식 직교 추론 체육관(KORGym)을 소개합니다. KORGym은 텍스트 또는 시각적 형식으로 50개 이상의 게임을 제공하며, 강화 학습 시나리오를 사용한 대화형 다회전 평가를 지원합니다. KORGym을 사용하여 19개의 LLM과 8개의 VLM에 대한 광범위한 실험을 수행하여 모델 패밀리 내에서 일관된 추론 패턴을 밝히고, 폐쇄형 모델의 우수한 성능을 보여줍니다. 추가 분석에서는 모달리티, 추론 전략, 강화 학습 기술 및 응답 길이가 모델 성능에 미치는 영향을 조사합니다. KORGym은 LLM 추론 연구 발전과 복잡하고 상호 작용적인 환경에 적합한 평가 방법론 개발에 귀중한 자료가 될 것으로 기대합니다.

시사점, 한계점

시사점:
LLM의 추론 능력 평가를 위한 새로운 동적 평가 플랫폼 KORGym 제시
다양한 모달리티(텍스트, 시각)와 상호작용적 다회전 평가 지원
19개 LLM과 8개 VLM을 대상으로 한 실험을 통해 모델 패밀리 내 일관된 추론 패턴과 폐쇄형 모델의 우수한 성능 확인
모달리티, 추론 전략, 강화 학습 기법, 응답 길이 등이 모델 성능에 미치는 영향 분석
LLM 추론 연구 및 평가 방법론 발전에 기여할 잠재력
한계점:
KORGym의 게임 수가 50개 이상으로 제한적일 수 있음 (향후 확장 필요성)
폐쇄형 모델의 우수한 성능이 데이터 편향 또는 모델 설계의 차이 때문일 가능성 고려 필요
다양한 LLM과 VLM에 대한 평가 결과를 일반화하는 데 한계가 있을 수 있음
실제 세계 문제에 대한 일반화 가능성에 대한 추가 연구 필요
👍