Theory-Grounded Evaluation of Human-Like Fallacy Patterns in LLM Reasoning

Created by

Haebom

저자

Andrew Keenan Richardson, Ryan Othniel Kearns, Sean Moss, Vincent Wang-Mascianica, Philipp Koralus

💡 개요

이 연구는 언어 모델(LLM)의 논리적 추론 오류가 인간의 인지적 오류 패턴을 따르는지 탐구합니다. Erotetic Theory of Reasoning(ETR)을 기반으로 생성된 383개의 추론 문제와 38개의 모델을 평가한 결과, 모델의 능력 향상과 함께 오류 중 ETR이 예측하는 오류의 비율이 증가하며, 인간에게서 나타나는 전제 순서 효과가 LLM에서도 관찰되었습니다. 본 연구는 인지 이론에 기반한 오염 방지형 합성 추론 테스트를 통해 오류 자체의 구성에 집중하는 새로운 평가 방법론을 제시합니다.

🔑 시사점 및 한계

•

LLM의 추론 오류가 인간의 인지 오류 패턴과 유사하게 나타날 수 있으며, 이는 LLM의 이해 및 추론 능력을 평가하는 데 중요한 통찰을 제공합니다.

•

모델의 성능 향상에도 불구하고 오류가 발생하는 패턴을 분석함으로써, 단순히 오류율 감소를 넘어 LLM의 실제 추론 과정을 이해하는 데 기여할 수 있습니다.

•

연구에서 사용된 ETR 및 PyETR 프레임워크는 향후 LLM 추론 능력 평가를 위한 자동화되고 이론적으로 뒷받침되는 벤치마크로 확장될 잠재력을 가집니다.

•

아직 모든 유형의 인간 오류를 포괄하지 못할 수 있으며, 향후 더 다양한 인지 오류 패턴을 통합하는 연구가 필요합니다.

PDF 보기

Made with Slashpage