LINGOLY-TOO: Disentangling Memorisation from Knowledge with Linguistic Templatisation and Orthographic Obfuscation
Created by
Haebom
저자
Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacsu, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi
개요
LINGOLY-TOO는 자연어 기반의 새로운 추론 벤치마크로, 기존 언어 모델들의 추론 능력 평가에서 나타나는 과장된 결과를 해결하기 위해 고안되었습니다. 언어학적으로 고안된 규칙을 이용하여 실제 언어로 작성된 추론 문제를 다양하게 변형함으로써, 문제 해결에 필요한 본질적인 추론 단계는 유지하면서 모델이 기존 지식으로 직접 문제를 풀 가능성을 낮춥니다. 실험 결과, 대규모 언어 모델(LLM)들은 추론 대신 기존 지식을 활용하여 문제를 푸는 경향을 보였으며, 일관된 추론을 평가하는 지표에서 낮은 성능과 높은 변동성을 나타냈습니다. 이는 LLM의 추론 능력이 여전히 취약함을 시사합니다. 본 벤치마크는 추론 능력과 내재된 지식을 분리하는 중요성을 강조하며, LLM의 추론 능력 측정을 위한 발전된 방법을 제시합니다.
시사점, 한계점
•
시사점:
◦
기존 지식 활용을 최소화하여 LLM의 추론 능력을 더욱 정확하게 평가할 수 있는 새로운 벤치마크를 제시.
◦
LLM의 추론 능력이 여전히 취약하며, 추론 과정의 견고성이 부족함을 밝힘.
◦
추론 벤치마크 개발 시, 모델의 내재된 지식과 추론 능력을 분리하는 것이 중요함을 강조.
◦
Inference-Time Compute (ITC) 모델의 최근 발전을 반영.
•
한계점:
◦
LINGOLY-TOO 벤치마크 자체가 완벽한 추론 능력 측정 도구라고 단정 지을 수 없음.