Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can LLMs Leverage Observational Data? Towards Data-Driven Causal Discovery with LLMs

Created by
  • Haebom

저자

Yuni Susanti, Michael Farber

개요

본 논문은 대규모 언어 모델(LLM)을 활용한 데이터 기반 인과 추론 가능성을 탐구합니다. 기존의 통계적 방법에 기반한 인과 추론은 대량의 데이터와 인과 구조에 대한 가정을 필요로 하지만, LLM은 도메인 전문가 지식을 제공하여 새로운 가능성을 제시합니다. 본 연구는 관측 데이터를 LLM 기반 추론에 통합하여, 쌍방향 프롬프팅과 너비 우선 탐색(BFS) 기반 프롬프팅 두 가지 전략을 통해 LLM이 관측 데이터를 효과적으로 활용하여 인과 관계를 추론할 수 있는지 조사합니다. 벤치마크 데이터셋 실험 결과, 관측 데이터 통합은 인과 추론 성능을 향상시켜 F1 점수를 최대 0.11 포인트 높였으며, 기존 통계적 인과 추론 기준 모델보다 최대 0.52 포인트 높은 성능을 보였습니다. 이는 LLM이 텍스트 메타데이터를 넘어 관측 데이터를 효과적으로 해석하고 활용하여 더욱 정확한 인과 추론을 할 수 있음을 보여줍니다.

시사점, 한계점

시사점:
LLM이 관측 데이터를 활용하여 인과 관계를 추론하는 데 효과적임을 보여줌.
쌍방향 프롬프팅과 BFS 기반 프롬프팅 모두 인과 추론 성능 향상에 기여.
기존 통계적 방법 기반 인과 추론보다 우수한 성능을 달성.
LLM 기반 완전한 데이터 기반 인과 추론을 위한 기반 마련.
한계점:
연구의 범위가 제한적일 수 있음 (특정 벤치마크 데이터셋 사용).
LLM의 성능 향상에 기여하는 요인에 대한 심층 분석 부족.
LLM 기반 인과 추론의 일반화 가능성에 대한 추가 연구 필요.
LLM의 한계 및 편향 문제에 대한 고려 필요.
👍