Improving Automatic Summarization of Radiology Reports through Mid-Training of Large Language Models

Created by

Haebom

저자

Mengxian Lyu, Cheng Peng, Ziyi Chen, Mengyuan Zhang, Jieting Li Lu, Yonghui Wu

💡 개요

의료 영상 판독 보고서의 자동 요약은 의료진의 부담을 줄이는 데 필수적입니다. 본 연구는 기존의 "사전 학습, 미세 조정" 방식 대신, 중간 학습(mid-training)을 통해 대규모 언어 모델(LLM)을 영상 판독 보고서 도메인에 적응시켜 요약 성능을 개선하는 새로운 방법을 제안합니다. 임상 도메인 사전 학습 후, 특정 하위 도메인(영상 판독)에 대한 중간 학습을 수행한 모델이 일반 사전 학습 또는 임상 도메인 사전 학습만 거친 모델보다 뛰어난 요약 성능과 사실성을 보여주었습니다.

🔑 시사점 및 한계

•

중간 학습(mid-training)은 LLM을 특정 의료 도메인에 더욱 효과적으로 적응시켜 자동 요약 성능을 크게 향상시킬 수 있습니다.

•

중간 학습은 소량의 데이터로도 우수한 성능을 달성하는 few-shot learning 능력을 향상시키고, 학습 초기의 어려움(cold start problem)을 완화하는 데 기여합니다.

•

"사전 학습, 중간 학습, 미세 조정" 방식이 기존의 "사전 학습, 미세 조정" 방식보다 효과적임을 입증하며, 향후 LLM 적용 연구에 중요한 방법론적 방향을 제시합니다.

•

본 연구에서 사용된 데이터셋 및 모델의 특정 도메인 편향 가능성에 대한 추가적인 검증 및 다양한 의료 도메인으로의 확장 연구가 필요합니다.

PDF 보기

Made with Slashpage