Show, Don't Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay
Created by
Haebom
Category
Empty
저자
Gon\c{c}alo Hora de Carvalho, Oscar Knap, Robert Pollice
개요
본 논문은 최신 대규모 언어 모델(LLM)의 일반화 능력을 평가하기 위한 벤치마크 세트인 "ChildPlay"를 제시합니다. 틱택토, 4목 게임, 배틀쉽, 도형 인식 게임과 같은 간단한 게임(ASCII로 인코딩)과 새로운 공간 논리 게임인 LEGO Connect Language (LCL) 및 Guess-the-SMILES (GtS)(화학 벤치마크)를 사용하여 GPT-3.5, GPT-4, GPT-4o, GPT-4o-mini 모델들을 평가했습니다. 결과적으로 GPT 모델들은 일부 과제에서 의미있는 응답을 제공하지만 전반적으로 성능이 저조했으며, 7개의 벤치마크 과제 중 4개에서만 모델 성능 향상(GPT-3.5, GPT-4, GPT-4o)이 관찰되었습니다. 특히 배틀쉽, LCL, GtS에서는 모든 모델이 일관되게 어려움을 겪었는데, 이는 GPT 모델이 대화 능력과 기본 규칙 이해는 모방할 수 있지만 전략 및 공간 추론 측면에서 일반화 능력이 제한적임을 시사합니다. 특히 ASCII로 인코딩된 분자 그래프 해석에서 성능이 매우 저조했습니다. 본 연구는 공개 소스 벤치마크 suite (https://github.com/BlueVelvetSackOfGoldPotatoes/child-play)을 제공합니다.
시사점, 한계점
•
시사점:
◦
GPT 모델의 일반화 능력, 특히 전략적 사고와 공간 추론 능력의 한계를 명확히 보여줌.
◦
ASCII로 인코딩된 분자 그래프 해석의 어려움을 제시, 화학 분야 적용의 어려움을 시사.
◦
GPT 모델의 "출현 지능"에 대한 주장에 대한 신중한 접근 필요성을 강조. GPT 모델은 특정 분야에 특화되어 있을 가능성이 높음.