[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Prompt4Trust: A Reinforcement Learning Prompt Augmentation Framework for Clinically-Aligned Confidence Calibration in Multimodal Large Language Models

Created by
  • Haebom

저자

Anita Kriz, Elizabeth Laura Janes, Xing Shen, Tal Arbel

개요

본 논문은 의료 분야에서 사용되는 다중 모달 대규모 언어 모델(MLLM)의 신뢰성 향상을 위한 새로운 강화 학습 프레임워크인 Prompt4Trust를 제안합니다. MLLM은 프롬프트 디자인에 민감하고 높은 확신으로 잘못된 응답을 생성하는 경향이 있어 의료와 같은 안전이 중요한 분야에 적용하는 데 어려움이 있습니다. Prompt4Trust는 경량 LLM을 훈련하여 맥락을 고려한 보조 프롬프트를 생성하고, 이를 통해 하위 작업 MLLM이 예측 정확도를 더 정확하게 반영하는 응답을 생성하도록 유도합니다. 기존의 보정 기법과 달리, 안전하고 신뢰할 수 있는 임상 의사 결정에 가장 중요한 보정 측면을 우선시합니다. PMC-VQA 벤치마크에서 최첨단 의료 시각적 질문 응답(VQA) 성능을 달성했으며, 소규모 하위 작업 MLLM으로 훈련된 프레임워크는 대규모 MLLM으로의 제로샷 일반화 가능성을 보여주었습니다. 이는 계산 비용 없이 확장 가능한 보정의 잠재력을 시사합니다. 본 연구는 안전이 중요한 환경에서 MLLM의 신뢰성을 향상시키기 위한 자동화된 인간 중심 프롬프트 엔지니어링의 가능성을 보여줍니다.

시사점, 한계점

시사점:
의료 분야에서 MLLM의 신뢰성 향상을 위한 새로운 강화 학습 프레임워크 Prompt4Trust 제시
기존 보정 기법과 달리, 임상 의사결정에 중요한 보정 측면을 우선시하여 안전성 및 신뢰성 향상
PMC-VQA 벤치마크에서 최첨단 VQA 성능 달성
소규모 MLLM으로 훈련된 모델의 대규모 MLLM으로의 제로샷 일반화 가능성 확인, 확장성 높은 보정 가능성 제시
자동화된 인간 중심 프롬프트 엔지니어링의 효용성 증명
한계점:
Prompt4Trust의 일반화 성능에 대한 추가적인 검증 필요
다양한 의료 데이터셋 및 임상 환경에서의 성능 평가 필요
실제 임상 적용을 위한 추가적인 연구 및 검증 필요
👍