Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Prompting or Fine-tuning? Exploring Large Language Models for Causal Graph Validation

Created by
  • Haebom

저자

Yuni Susanti, Nina Holsmoelle

개요

본 연구는 기존 통계적 인과 추론 방법으로 생성된 인과 그래프에서 인과 관계를 평가하는 대규모 언어 모델(LLM)의 능력을 탐구합니다. 전통적으로는 인간 전문가가 수동으로 평가하는 작업이었던 인과 관계 평가에 LLM을 활용하여 변수 쌍 간의 인과적 연결을 텍스트 맥락에서 추론할 수 있는지 여부를 판단하여 인과 관계를 평가합니다. 제로샷 및 퓨샷 인과 추론을 위한 프롬프트 기반 방법과 인과 관계 예측 작업을 위한 언어 모델 미세 조정 두 가지 방법을 비교 분석합니다. 실험 결과, 생물 의학 및 일반 도메인 데이터셋에서 미세 조정된 모델이 프롬프트 기반 모델보다 F1 점수에서 최대 20.5점 향상되는 등 일관되게 우수한 성능을 보였습니다. 이는 인과 그래프 평가를 위한 두 가지 접근 방식의 강점과 한계에 대한 귀중한 통찰력을 제공합니다.

시사점, 한계점

시사점: 미세 조정된 LLM이 인과 그래프 평가에서 프롬프트 기반 LLM보다 우수한 성능을 보임을 확인했습니다. 이는 소규모 매개변수 언어 모델에서도 유효하며, 인과 관계 평가의 자동화 가능성을 시사합니다.
한계점: 본 연구는 특정 데이터셋에 국한된 실험 결과를 바탕으로 하며, 다양한 도메인과 데이터셋에 대한 추가 연구가 필요합니다. 또한, LLM의 인과 추론 능력의 한계와 신뢰성에 대한 추가적인 검증이 필요합니다.
👍