Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

Created by
  • Haebom

저자

Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie

개요

의료 대규모 언어 모델의 정확한 진단은 지식 격차와 환각으로 인해 방해받습니다. 검색 및 도구 증강 방법이 도움이 되지만, 외부 지식의 약한 활용과 피드백 추론 추적성이 저하되어 그 영향이 제한적입니다. 이러한 문제를 해결하기 위해, 본 연구는 강화 학습(RL)을 통해 종단 간 학습된 에이전트 RAG 시스템인 Deep-DxSearch를 제시합니다. 이 시스템은 추적 가능한 검색 증강 추론을 의료 진단에 적용합니다. Deep-DxSearch는 환자 기록과 신뢰할 수 있는 의료 지식 소스를 포함하는 대규모 의료 검색 코퍼스를 구성하여 진단 시나리오 전반에 걸쳐 검색 인식 추론을 지원합니다. LLM을 핵심 에이전트로, 검색 코퍼스를 환경으로 구성하고, 형식, 검색, 추론 구조 및 진단 정확도에 대한 맞춤형 보상을 사용하여 대규모 데이터를 통해 RL로 에이전트 RAG 정책을 발전시키는 것이 중요합니다. 실험 결과, 종단 간 에이전트 RL 훈련 프레임워크가 여러 데이터 센터에서 프롬프트 엔지니어링 및 훈련 없는 RAG 접근 방식을 일관되게 능가함을 보여줍니다. 훈련 후 Deep-DxSearch는 GPT-4o, DeepSeek-R1 및 기타 의료 특정 프레임워크와 같은 강력한 진단 기준을 능가하여 분포 내 및 분포 외 설정에서 일반적인 질병과 희귀 질병 진단 모두에서 진단 정확도가 크게 향상되었습니다. 또한, 보상 설계 및 검색 코퍼스 구성 요소에 대한 ablation 연구는 전통적인 구현과 비교하여 접근 방식의 고유성과 효과를 강조하는 중요한 역할을 확인했습니다. 마지막으로, 사례 연구 및 해석 가능성 분석은 Deep-DxSearch의 진단 정책 개선을 강조하여 성능 향상에 대한 심층적인 통찰력을 제공하고 임상의가 더 신뢰할 수 있고 정확한 예비 진단을 제공하는 데 도움이 됩니다.

시사점, 한계점

시사점:
종단 간 강화 학습 기반의 에이전트 RAG 시스템을 통해 의료 진단 정확도를 크게 향상시켰습니다.
GPT-4o, DeepSeek-R1 등 기존 최첨단 모델들을 능가하는 성능을 보였습니다.
분포 내 및 분포 외 설정 모두에서 우수한 성능을 보이며 일반적인 질병과 희귀 질병 진단에 효과적임을 입증했습니다.
보상 설계 및 검색 코퍼스의 중요성을 확인하여 향후 연구 방향을 제시했습니다.
사례 연구 및 해석 가능성 분석을 통해 모델의 의사결정 과정을 이해하는 데 도움을 줍니다.
한계점:
현재 공개된 정보만으로는 Deep-DxSearch의 훈련 데이터 크기, 훈련 시간, 계산 자원 소모량 등에 대한 구체적인 정보가 부족합니다.
실제 임상 환경에서의 성능 평가 및 검증이 추가적으로 필요합니다.
모델의 환각 문제에 대한 해결 방안 및 추가적인 개선 여지가 존재할 수 있습니다.
대규모 의료 데이터의 접근성 및 프라이버시 문제에 대한 고려가 필요합니다.
👍