Sign In

Compositional Causal Reasoning Evaluation in Language Models

Created by
  • Haebom
Category
Empty

저자

Jacqueline R. M. A. Maasch, Alihan Huyuk, Xinnuo Xu, Aditya V. Nori, Javier Gonzalez

개요

본 논문은 생성형 AI의 두 가지 핵심적인 목표인 인과 추론과 구성적 추론을 동시에 고려하는 통합적 관점인 구성적 인과 추론(CCR)을 제시합니다. CCR은 인과적 척도가 어떻게 구성되고, 동등하게 인과적 양이 그래프를 통해 어떻게 전파되는지를 추론하는 능력을 의미합니다. 평균 처리 효과와 필수 및 충분 조건의 확률에 대해 CCR을 체계적으로 평가하기 위한 프레임워크를 제시하고, Llama, Phi, GPT 계열의 언어 모델에 대한 CCR 과제 설계를 실증적으로 보여줍니다. 수학적 단어 문제를 통해 다양한 분류학적으로 구별되는 오류 패턴을 밝혀냈으며, o1 모델을 제외한 모든 모델에서 인과 경로의 복잡성이 증가함에 따라 CCR 오류도 증가함을 확인했습니다.

시사점, 한계점

시사점:
생성형 AI의 인과 추론 및 구성적 추론 능력을 평가하기 위한 통합적 프레임워크인 CCR을 제시.
CCR 평가 프레임워크를 통해 다양한 언어 모델의 인과 추론 능력을 비교 분석 가능.
수학적 단어 문제를 통해 언어 모델의 CCR 오류 패턴을 체계적으로 분석.
모델의 성능과 인과 경로 복잡성 간의 관계를 규명.
한계점:
현재 제시된 CCR 프레임워크는 특정 유형의 문제(수학적 단어 문제)에 국한.
o1 모델을 제외한 모든 모델에서 인과 경로 복잡성과 CCR 오류 간의 상관관계를 확인했으나, 그 원인에 대한 심층적인 분석 부족.
평가 대상 모델의 종류가 제한적이며, 더 다양한 모델에 대한 추가적인 연구 필요.
👍