APRIL: Annotations for Policy evaluation with Reliable Inference from LLMs
Created by
Haebom
Category
Empty
저자
Aishwarya Mandyam, Kalyani Limaye, Barbara E. Engelhardt, Emily Alsentzer
개요
본 논문은 오프-정책 평가(OPE)를 위해 대규모 언어 모델(LLM)을 활용하여 반사실적 주석을 생성하는 방법을 제안한다. 의료 분야에서 OPE의 안전성을 확보하기 위해, LLM을 사용하여 대체 치료법 하에서 주요 임상 특징의 변화를 예측하고, 이를 기반으로 반사실적 주석을 생성한다. MIMIC-IV 데이터셋을 사용하여 LLM의 임상 특징 예측 능력을 평가하고, 생성된 반사실적 주석을 OPE 추정기에 통합하여 성능 향상을 확인한다.
시사점, 한계점
•
LLM 기반 반사실적 주석은 의료 데이터셋의 커버리지 문제를 해결하는 데 도움이 되며, 임상 환경에서 안전한 정책 배포를 가능하게 한다.
•
LLM을 활용하여 스케일링 가능한 방식으로 반사실적 주석을 생성한다.
•
다양한 정책 간의 변화 정도에 따라 반사실적 주석의 효과를 분석한다.
•
추가적인 주석이 유용하지 않은 시점을 식별하기 위한 엔트로피 기반 메트릭을 제공한다.
•
LLM의 예측 정확도에 의존하며, 이는 모델의 종류 및 훈련 데이터에 따라 달라질 수 있다.