본 연구는 기존 통계적 인과 추론 방법으로 생성된 인과 그래프에서 인과 관계를 평가하는 대규모 언어 모델(LLM)의 능력을 탐구합니다. 전통적으로는 인간 전문가가 수동으로 평가하는 작업이었던 인과 관계 평가에 LLM을 활용하여 변수 쌍 간의 인과적 연결을 텍스트 맥락에서 추론할 수 있는지 여부를 판단하여 인과 관계를 평가합니다. 제로샷 및 퓨샷 인과 추론을 위한 프롬프트 기반 방법과 인과 관계 예측 작업을 위한 언어 모델 미세 조정 두 가지 방법을 비교 분석합니다. 실험 결과, 생물 의학 및 일반 도메인 데이터셋에서 미세 조정된 모델이 프롬프트 기반 모델보다 F1 점수에서 최대 20.5점 향상되는 등 일관되게 우수한 성능을 보였습니다. 이는 인과 그래프 평가를 위한 두 가지 접근 방식의 강점과 한계에 대한 귀중한 통찰력을 제공합니다.