Sign In

LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation

Created by
  • Haebom
Category
Empty

저자

Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacs, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 평가에서 데이터 노출로 인한 과대평가 문제를 해결하기 위해 새로운 평가 기준 LINGOLY-TOO를 제시합니다. 실제 언어의 문자 체계를 동적으로 난독화하는 방법론을 통해 기존 문제의 다양한 변형을 생성하여 모델의 암기 효과를 줄이고, 추론 능력을 보다 정확하게 평가할 수 있도록 설계되었습니다. OpenAI o1-preview 및 DeepSeem R1과 같은 최첨단 모델을 대상으로 실험한 결과, 모델들이 고난도 추론 문제에서 어려움을 겪으며, 동일한 문제의 변형에 따라 정확도 편차가 크고 원래 문자 체계로 제시된 문제에서 더 높은 성능을 보이는 것을 확인했습니다. 이는 LLM의 응답 생성 과정의 불투명성을 강조하고, 기존 데이터 노출이 최첨단 모델의 추론 능력 과대평가에 기여한다는 증거를 제시합니다.

시사점, 한계점

시사점:
LLM의 추론 능력 평가 시 데이터 노출로 인한 과대평가 문제를 명확히 제시.
LINGOLY-TOO를 통해 암기 효과를 줄인 새로운 추론 능력 평가 기준 제시.
최첨단 LLM의 추론 능력에 대한 현실적인 한계를 제시.
LLM의 응답 생성 과정의 불투명성을 강조.
한계점:
LINGOLY-TOO의 난독화 기법이 모든 유형의 암기 효과를 완벽히 제거할 수 있는지에 대한 추가 연구 필요.
다양한 언어와 문자 체계에 대한 일반화 가능성에 대한 추가 연구 필요.
평가 기준의 범위가 제한적일 수 있음. (특정 유형의 언어적 추론에 집중)
👍