LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation
Created by
Haebom
Category
Empty
저자
Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacs, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi
개요
본 논문은 대규모 언어 모델(LLM)의 추론 능력 평가에서 데이터 노출로 인한 과대평가 문제를 해결하기 위해 새로운 평가 기준 LINGOLY-TOO를 제시합니다. 실제 언어의 문자 체계를 동적으로 난독화하는 방법론을 통해 기존 문제의 다양한 변형을 생성하여 모델의 암기 효과를 줄이고, 추론 능력을 보다 정확하게 평가할 수 있도록 설계되었습니다. OpenAI o1-preview 및 DeepSeem R1과 같은 최첨단 모델을 대상으로 실험한 결과, 모델들이 고난도 추론 문제에서 어려움을 겪으며, 동일한 문제의 변형에 따라 정확도 편차가 크고 원래 문자 체계로 제시된 문제에서 더 높은 성능을 보이는 것을 확인했습니다. 이는 LLM의 응답 생성 과정의 불투명성을 강조하고, 기존 데이터 노출이 최첨단 모델의 추론 능력 과대평가에 기여한다는 증거를 제시합니다.
시사점, 한계점
•
시사점:
◦
LLM의 추론 능력 평가 시 데이터 노출로 인한 과대평가 문제를 명확히 제시.
◦
LINGOLY-TOO를 통해 암기 효과를 줄인 새로운 추론 능력 평가 기준 제시.
◦
최첨단 LLM의 추론 능력에 대한 현실적인 한계를 제시.
◦
LLM의 응답 생성 과정의 불투명성을 강조.
•
한계점:
◦
LINGOLY-TOO의 난독화 기법이 모든 유형의 암기 효과를 완벽히 제거할 수 있는지에 대한 추가 연구 필요.