RadioRAG: Online Retrieval-augmented Generation for Radiology Question Answering
Created by
Haebom
저자
Soroosh Tayebi Arasteh, Mahshad Lotfinia, Keno Bressem, Robert Siepmann, Lisa Adams, Dyke Ferber, Christiane Kuhl, Jakob Nikolas Kather, Sven Nebelung, Daniel Truhn
개요
본 논문은 정적 훈련 데이터셋에 기반하여 오래되거나 부정확한 정보를 생성하는 대규모 언어 모델(LLM)의 한계를 극복하기 위해, 실시간으로 권위 있는 방사선학 온라인 소스에서 데이터를 검색하는 종단 간 프레임워크인 Radiology RAG (RadioRAG)를 개발했습니다. 다양한 LLM(GPT-3.5-turbo, GPT-4, Mistral-7B, Mixtral-8x7B, Llama3 [8B 및 70B])을 사용하여 RSNA Case Collection의 80개 질문과 전문가가 선별한 24개 질문에 대한 진단 정확도를 RadioRAG를 사용한 경우와 사용하지 않은 경우 비교 평가했습니다. RadioRAG는 Radiopaedia에서 실시간으로 문맥 특정 정보를 검색했습니다. 결과적으로 대부분의 LLM에서 RadioRAG가 진단 정확도를 향상시켰으며, 특히 유방 영상 및 응급 방사선학에서 비-RAG 모델 및 인간 방사선과 전문의의 성능을 능가하거나 동등한 수준을 달성했습니다. 하지만 모델에 따라 성능 향상 정도가 달랐으며, 일부 모델에서는 향상이 미미했습니다. 이는 LLM이 훈련 데이터를 넘어 도메인 특정 데이터에 접근할 때 이점을 얻는다는 것을 보여줍니다.
시사점, 한계점
•
시사점:
◦
실시간으로 도메인 특정 데이터를 통합하는 RadioRAG는 방사선학 질문 응답에서 LLM의 정확성과 사실성을 향상시킬 가능성을 보여줍니다.
◦
특히 유방 영상 및 응급 방사선학 분야에서 LLM의 진단 정확도를 상당히 향상시킬 수 있습니다.
◦
LLM의 성능 향상에 도메인 특정 데이터 접근의 중요성을 강조합니다.
•
한계점:
◦
RadioRAG의 효과는 LLM 모델에 따라 다르게 나타났습니다. 일부 모델에서는 성능 향상이 미미했습니다.
◦
Radiopaedia에만 의존하여 데이터를 검색하므로, 다른 데이터 소스를 활용하는 방안에 대한 추가 연구가 필요합니다.