A benchmark multimodal oro-dental dataset for large vision-language models
Created by
Haebom
Category
Empty
저자
Haoxin Lv, Ijazul Haq, Jin Du, Jiaxin Ma, Binnian Zhu, Xiaobing Dang, Chaoan Liang, Ruxu Du, Yingjie Zhang, Muhammad Saqib
개요
본 논문은 2018년부터 2025년까지 8년간 4800명의 환자(10세 ~ 90세)로부터 수집된 8775건의 치과 검진 데이터를 포함하는 포괄적인 멀티모달 데이터셋을 제시한다. 이 데이터셋은 50000개의 구강 내 이미지, 8056개의 방사선 사진, 진단, 치료 계획, 후속 조치 노트를 포함한 상세 텍스트 기록으로 구성된다. 연구에서는 이 데이터셋을 활용하여 Qwen-VL 3B 및 7B와 같은 대규모 비전-언어 모델을 미세 조정하고, 6가지 구강-치아 이상 분류 및 멀티모달 입력을 기반으로 한 완전한 진단 보고서 생성을 평가했다. 미세 조정된 모델은 기본 모델 및 GPT-4o에 비해 상당한 성능 향상을 보였으며, AI 기반 구강-치아 의료 솔루션 개발에 기여할 것으로 기대된다. 이 데이터셋은 공개적으로 제공된다.
시사점, 한계점
•
시사점:
◦
대규모 멀티모달 치과 데이터셋 제공을 통해 AI 기반 구강-치아 의료 연구를 위한 중요한 자원 제공.
◦
Qwen-VL 모델의 미세 조정을 통해 데이터셋의 유효성 검증 및 AI 모델 성능 향상 입증.
◦
구강-치아 이상 분류 및 진단 보고서 생성과 같은 실제 임상 환경에서의 AI 활용 가능성 제시.