Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A benchmark multimodal oro-dental dataset for large vision-language models

Created by
  • Haebom
Category
Empty

저자

Haoxin Lv, Ijazul Haq, Jin Du, Jiaxin Ma, Binnian Zhu, Xiaobing Dang, Chaoan Liang, Ruxu Du, Yingjie Zhang, Muhammad Saqib

개요

본 논문은 2018년부터 2025년까지 8년간 4800명의 환자(10세 ~ 90세)로부터 수집된 8775건의 치과 검진 데이터를 포함하는 포괄적인 멀티모달 데이터셋을 제시한다. 이 데이터셋은 50000개의 구강 내 이미지, 8056개의 방사선 사진, 진단, 치료 계획, 후속 조치 노트를 포함한 상세 텍스트 기록으로 구성된다. 연구에서는 이 데이터셋을 활용하여 Qwen-VL 3B 및 7B와 같은 대규모 비전-언어 모델을 미세 조정하고, 6가지 구강-치아 이상 분류 및 멀티모달 입력을 기반으로 한 완전한 진단 보고서 생성을 평가했다. 미세 조정된 모델은 기본 모델 및 GPT-4o에 비해 상당한 성능 향상을 보였으며, AI 기반 구강-치아 의료 솔루션 개발에 기여할 것으로 기대된다. 이 데이터셋은 공개적으로 제공된다.

시사점, 한계점

시사점:
대규모 멀티모달 치과 데이터셋 제공을 통해 AI 기반 구강-치아 의료 연구를 위한 중요한 자원 제공.
Qwen-VL 모델의 미세 조정을 통해 데이터셋의 유효성 검증 및 AI 모델 성능 향상 입증.
구강-치아 이상 분류 및 진단 보고서 생성과 같은 실제 임상 환경에서의 AI 활용 가능성 제시.
공개 데이터셋 제공으로 후속 연구 활성화 및 AI 치과 기술 발전 기대.
한계점:
논문에 구체적인 데이터 수집 및 전처리 과정에 대한 상세 정보 부족.
모델 성능 평가 지표 및 구체적인 결과 수치에 대한 정보 부족.
데이터셋의 편향성 및 일반화 가능성에 대한 논의 부재.
데이터셋의 장기간(8년) 수집으로 인한 데이터 불일치 가능성.
👍