LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation
Created by
Haebom
Category
Empty
저자
Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacs, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi
개요
본 논문은 대규모 언어 모델(LLM)의 추론 능력 평가 시 평가 벤치마크의 데이터 노출로 인한 과대평가 문제를 해결하기 위해 새로운 프레임워크를 제시합니다. 이 프레임워크를 이용하여 LLM의 기억 능력에 대한 의존성을 줄인 새로운 언어 추론 벤치마크 LINGOLY-TOO를 개발했습니다. 실제 언어의 문자 체계를 동적으로 난독화하는 정자법 템플릿을 개발하여 다양한 문제 변형을 생성함으로써 모델의 훈련 데이터에 특정 문제가 나타날 가능성을 줄였습니다. 실험 결과, Claude 3.7 Sonnet, o1-preview, DeepSeek R1과 같은 최첨단 모델들도 고급 추론 문제에서 어려움을 겪는다는 것을 보여줍니다. 또한, 동일한 문제의 변형에 따라 정확도에 상당한 차이가 있으며, 평균적으로 원래 문자 체계로 제시된 질문에 대해 더 나은 성능을 보인다는 것을 발견했습니다. 이러한 결과는 LLM의 응답 생성 과정의 불투명성을 강조하고, 기존 데이터 노출이 최첨단 모델의 추론 능력을 과대평가하는 데 기여한다는 증거를 제시합니다.
시사점, 한계점
•
시사점:
◦
LLM의 추론 능력 평가 시 데이터 노출에 의한 과대평가 문제를 밝힘.
◦
LLM의 추론 능력에 대한 현실적인 평가를 위한 새로운 벤치마크 LINGOLY-TOO 제시.