Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models

Created by
  • Haebom

저자

Martina Miliani, Serena Auriemma, Alessandro Bondielli, Emmanuele Chersoni, Lucia Passaro, Irene Sucameli, Alessandro Lenci

개요

본 논문은 명시적 인과 추론 능력 평가를 위한 새로운 데이터셋 ExpliCa를 소개합니다. ExpliCa는 다양한 언어적 순서로 제시되고 언어적 연결어로 명시적으로 표현된 인과 관계와 시간적 관계를 통합합니다. 크라우드소싱을 통해 수집된 인간의 수용성 평가를 포함하고 있으며, 7개의 상용 및 오픈소스 LLMs를 대상으로 프롬프팅 및 퍼플렉서티 기반 지표를 통해 평가하였습니다. 평가 결과, 최상위 모델조차 0.80의 정확도에 도달하지 못했으며, 모델들이 시간적 관계와 인과 관계를 혼동하는 경향이 있고, 성능은 사건의 언어적 순서에 크게 영향을 받는다는 것을 밝혔습니다. 또한, 퍼플렉서티 기반 점수와 프롬프팅 성능은 모델 크기에 따라 다르게 영향을 받는다는 것을 확인했습니다.

시사점, 한계점

시사점: 명시적 인과 추론 능력 평가를 위한 새로운 데이터셋 ExpliCa를 제시하여 LLMs의 인과 추론 능력에 대한 심층적인 분석을 가능하게 함. LLMs의 인과 추론 능력의 한계를 명확히 제시하고, 시간적 관계와 인과 관계의 혼동 및 언어적 순서의 영향 등 주요 문제점을 밝힘. 모델 크기와 성능 간의 상관관계에 대한 새로운 통찰력 제공.
한계점: ExpliCa 데이터셋의 크기 및 다양성에 대한 추가적인 검토 필요. 평가에 사용된 프롬프팅 방식 및 퍼플렉서티 지표의 한계점에 대한 논의 필요. 더욱 다양한 유형의 인과 추론 문제와 복잡한 문장 구조에 대한 추가적인 연구 필요.
👍