의료 대규모 언어 모델의 정확한 진단은 지식 격차와 환각으로 인해 방해받습니다. 검색 및 도구 증강 방법이 도움이 되지만, 외부 지식의 약한 활용과 피드백 추론 추적성이 저하되어 그 영향이 제한적입니다. 이러한 문제를 해결하기 위해, 본 연구는 강화 학습(RL)을 통해 종단 간 학습된 에이전트 RAG 시스템인 Deep-DxSearch를 제시합니다. 이 시스템은 추적 가능한 검색 증강 추론을 의료 진단에 적용합니다. Deep-DxSearch는 환자 기록과 신뢰할 수 있는 의료 지식 소스를 포함하는 대규모 의료 검색 코퍼스를 구성하여 진단 시나리오 전반에 걸쳐 검색 인식 추론을 지원합니다. LLM을 핵심 에이전트로, 검색 코퍼스를 환경으로 구성하고, 형식, 검색, 추론 구조 및 진단 정확도에 대한 맞춤형 보상을 사용하여 대규모 데이터를 통해 RL로 에이전트 RAG 정책을 발전시키는 것이 중요합니다. 실험 결과, 종단 간 에이전트 RL 훈련 프레임워크가 여러 데이터 센터에서 프롬프트 엔지니어링 및 훈련 없는 RAG 접근 방식을 일관되게 능가함을 보여줍니다. 훈련 후 Deep-DxSearch는 GPT-4o, DeepSeek-R1 및 기타 의료 특정 프레임워크와 같은 강력한 진단 기준을 능가하여 분포 내 및 분포 외 설정에서 일반적인 질병과 희귀 질병 진단 모두에서 진단 정확도가 크게 향상되었습니다. 또한, 보상 설계 및 검색 코퍼스 구성 요소에 대한 ablation 연구는 전통적인 구현과 비교하여 접근 방식의 고유성과 효과를 강조하는 중요한 역할을 확인했습니다. 마지막으로, 사례 연구 및 해석 가능성 분석은 Deep-DxSearch의 진단 정책 개선을 강조하여 성능 향상에 대한 심층적인 통찰력을 제공하고 임상의가 더 신뢰할 수 있고 정확한 예비 진단을 제공하는 데 도움이 됩니다.