Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Benchmarking LLM Causal Reasoning with Scientifically Validated Relationships

Created by
  • Haebom

저자

Donggyu Lee, Sungwon Park, Yerin Hwang, Hyoshin Kim, Hyunwoo Oh, Jungwon Kim, Meeyoung Cha, Sangyoon Park, Jihee Kim

개요

대규모 언어 모델(LLM)의 인과 추론 능력 평가를 위한 새로운 벤치마크를 제시. 기존 벤치마크의 한계를 극복하고자, 경제 및 금융 분야의 최고 저널에서 인과 관계를 추출하여 40,379개의 평가 항목으로 구성. 건강, 환경, 기술, 법률, 문화 등 5가지 영역에서 5가지 유형의 과제를 포함. 8개의 최첨단 LLM을 대상으로 실험한 결과, 최고 성능 모델도 57.6%의 정확도에 그침. 모델 규모가 성능 향상으로 이어지지 않으며, 고급 추론 모델조차 기본적인 인과 관계 식별에 어려움을 겪음.

시사점, 한계점

시사점:
LLM의 인과 추론 능력 부족을 입증.
고위험 응용 분야에서 신뢰할 수 있는 인과 추론의 필요성 강조.
모델 규모가 성능 향상을 보장하지 않음을 시사.
한계점:
구체적인 한계점은 제시되지 않음.
👍