Sign In

A Technical Exploration of Causal Inference with Hybrid LLM Synthetic Data

Created by
  • Haebom
Category
Empty

저자

Dana Kim, Yichen Xu, Tiffany Lin

개요

본 논문은 대규모 언어 모델(LLM)을 사용하여 합성 표 형식 데이터를 생성하는 방식을 탐구하며, 기존 방식이 평균 치료 효과(ATE)와 같은 주요 인과 관계 매개변수를 보존하는 데 실패할 수 있음을 지적한다. 이를 해결하기 위해, 모델 기반 공변량 합성, 성향 및 결과 모델을 결합한 하이브리드 생성 프레임워크를 제안하여 (W, A, Y) 삼중항이 기본 인과 구조를 유지하도록 보장한다. 또한 긍정성 위반을 완화하기 위한 합성 페어링 전략과 복잡한 공변량 분포 하에서 전통적인 추정기(IPTW, AIPW, 대체)를 벤치마킹하는 현실적인 평가 프로토콜을 제시한다.

시사점, 한계점

LLM 기반의 합성 데이터 생성에서 인과 관계 효과 보존의 중요성을 강조한다.
기존 방법의 한계를 지적하고, 하이브리드 생성 프레임워크를 제안하여 개선을 시도한다.
긍정성 위반 완화 전략과 현실적인 평가 프로토콜을 제시한다.
코드 공개를 통해 연구의 재현 및 확장을 지원한다.
GAN 및 LLM 기반 생성기의 ATE 추정 오류를 실험적으로 확인한다.
하이브리드 프레임워크의 성능 평가 결과는 명시되지 않음.
제안된 방법의 일반화 가능성 및 실제 데이터 적용에 대한 추가 연구 필요.
👍