Sign In

Do Language Models Follow Occam's Razor? An Evaluation of Parsimony in Inductive and Abductive Reasoning

Created by
  • Haebom
Category
Empty

저자

Yunxin Sun, Abulhair Saparov

💡 개요

본 연구는 대규모 언어 모델(LLM)이 귀납 및 연역적 추론에서 오컴의 법칙을 따르는지 평가합니다. 이를 위해 복잡한 세계 모델 하에서 관찰을 설명하는 가설을 생성하도록 LLM에게 요구하는 합성 데이터셋 생성 프레임워크와 오컴의 법칙을 정량적으로 평가하는 새로운 자동화된 지표를 제안합니다. 연구 결과, LLM은 단순한 시나리오에서는 귀납 및 연역적 추론을 수행하지만, 복잡한 세계 모델에서는 고품질의 가설을 생성하는 데 어려움을 겪습니다.

🔑 시사점 및 한계

LLM의 비연역적 추론 능력 평가 시 오컴의 법칙 준수 여부가 중요함을 강조합니다.
오컴의 법칙을 만족하는 가설 생성을 평가하기 위한 새로운 프레임워크와 지표를 제시합니다.
최신 LLM은 복잡한 추론에서 단순성을 선호하는 경향이 약하고, 귀납 및 연역적 추론 능력 향상을 위한 기법(in-context learning, RLVR)에도 불구하고 고품질 가설 생성에 한계를 보입니다.
복잡한 세계 모델과 더 다양한 추론 유형에 대한 LLM의 오컴의 법칙 준수 여부에 대한 추가적인 연구가 필요합니다.
👍