LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation
Created by
Haebom
Category
Empty
저자
Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacsu, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi
개요
본 논문은 대규모 언어 모델(LLM)의 추론 능력 평가 시 평가 벤치마크의 데이터 노출로 인한 과대평가 문제를 해결하기 위해 새로운 프레임워크를 제시한다. 이 프레임워크를 이용하여, 기존 모델의 훈련 데이터에 존재할 가능성을 낮추면서 추론 과정은 유지하는 다양한 변형 문제를 생성하는 LINGOLY-TOO라는 새로운 벤치마크를 개발하였다. 실제 언어의 문자 시스템을 혼란스럽게 하는 정형화된 템플릿을 개발하여 문제 변형을 생성하였으며, Claud 3.7 Sonnet, o1-preview, DeepSeek R1 등 최첨단 모델들이 고급 추론 과제에서 어려움을 겪는다는 것을 실험적으로 보여주었다. 또한, 동일한 문제의 변형에 따라 정확도에 상당한 차이가 있으며, 원래의 문자 시스템으로 제시된 문제에 대해 더 높은 정확도를 보이는 것을 확인하였다. 이를 통해 LLM의 응답 생성 과정의 불투명성과 기존 데이터 노출이 최첨단 모델의 추론 능력 과대평가에 기여한다는 사실을 강조한다.
시사점, 한계점
•
시사점:
◦
LLM의 추론 능력 평가 시 데이터 노출에 의한 과대평가 문제를 명확히 제시.
◦
LLM의 추론 능력을 보다 정확하게 평가할 수 있는 새로운 벤치마크(LINGOLY-TOO) 제시.
◦
최첨단 LLM들이 고급 추론 과제에서 여전히 어려움을 겪는다는 것을 실험적으로 증명.
◦
LLM의 응답 생성 과정의 불투명성을 강조.
•
한계점:
◦
LINGOLY-TOO 벤치마크의 일반화 가능성에 대한 추가 연구 필요.
◦
다양한 유형의 추론 문제에 대한 일반화 여부에 대한 추가 검증 필요.
◦
정형화된 템플릿을 통한 문자 시스템 혼란이 모든 유형의 추론 문제에 효과적인지에 대한 추가 연구 필요.