Balancing Safety and Helpfulness in Healthcare AI Assistants through Iterative Preference Alignment

Created by

Haebom

저자

Huy Nghiem, Swetasudha Panda, Devashish Khatwani, Huy V. Nguyen, Krishnaram Kenthapadi, Hal Daume III

개요

대규모 언어 모델(LLM)의 의료 분야 활용 증가에 따라, 안전성과 신뢰성 확보가 중요해짐. 본 논문은 Kahneman-Tversky Optimization (KTO)과 Direct Preference Optimization (DPO)를 활용하여 도메인 특화 안전 신호에 맞춰 모델을 개선하는 반복적 사후 배포 정렬 프레임워크를 제시함. CARES-18K 벤치마크를 사용하여 4개의 LLM(Llama-3B/8B, Meditron-8B, Mistral-7B)을 평가한 결과, 유해 질의 감지 관련 지표에서 최대 42% 향상을 보임. 또한, 잘못된 거부와 상반되는 결과를 보이며, 아키텍처 의존적 보정 편향을 드러냄. 자가 평가의 신뢰성, 외부 또는 미세 조정된 판단의 필요성에 대한 연구도 수행함. 환자 안전, 사용자 신뢰, 임상적 유용성의 균형을 맞추는 것이 중요함을 강조함.

시사점, 한계점

•

KTO 및 DPO 기반의 사후 배포 정렬 프레임워크를 통해 의료 분야 LLM의 안전성 향상 가능성 제시

•

유해 질의 감지 성능 최대 42% 향상 확인

•

모델 아키텍처에 따른 안전성과 거부율 간의 트레이드오프 관계 및 보정 편향 노출

•

자가 평가, 외부 평가, 미세 조정된 평가의 적절한 활용 방법 제시

•

연구 대상 모델의 종류가 제한적임 (Llama-3B/8B, Meditron-8B, Mistral-7B)

•

CARES-18K 벤치마크의 한계 (ex. 실제 환경과의 차이)

PDF 보기

Made with Slashpage