Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

A Systematic Analysis of Large Language Models with RAG-enabled Dynamic Prompting for Medical Error Detection and Correction

Created by
  • Haebom
Category
Empty

저자

Farzad Ahmed, Joniel Augustine Jerome, Meliha Yetisgen, Ozlem Uzuner

개요

본 논문은 임상 문서 내 오류를 감지하고 수정하는 데 있어 대규모 언어 모델(LLM)의 활용 가능성을 탐구한다. 특히, 제로샷 프롬프팅, 임의 예시를 활용한 정적 프롬프팅(SPR), 검색 증강 동적 프롬프팅(RDP) 등 다양한 프롬프팅 전략을 비교 평가했다. MEDEC 데이터셋을 사용하여 GPT, Claude, Gemini 및 OpenAI 모델을 포함한 9개의 instruction-tuned LLM의 성능을 정확도, 재현율, FPR, ROUGE-1, BLEURT, BERTScore를 통해 측정했다.

시사점, 한계점

시사점:
RDP는 제로샷 및 SPR 프롬프팅보다 우수한 성능을 보였다.
검색된 예시를 활용하여 오류 감지 정확도를 향상시키고, 오탐을 줄이며, 의료 오류 수정의 신뢰성을 높였다.
LLM은 임상 문서 내 오류 감지 및 수정에 잠재적인 역할을 할 수 있다.
한계점:
제로샷 프롬프팅은 낮은 재현율을 보였으며, 약어 및 비정형 오류를 놓치는 경우가 많았다.
SPR은 재현율을 향상시켰지만, FPR을 증가시키는 문제가 있었다.
LLM과 임상의의 추론 방식에 차이가 존재하며, 오류 유형에 따라 성능 편차가 발생할 수 있다.
👍