Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Prompt-Conditioned FiLM and Multi-Scale Fusion on MedSigLIP for Low-Dose CT Quality Assessment

Created by
  • Haebom
Category
Empty

저자

Tolga Demiroglu (Electronics and Communication Engineering Department, Istanbul Technical University, Istanbul, Turkey), Mehmet Ozan Unal (Electronics and Communication Engineering Department, Istanbul Technical University, Istanbul, Turkey), Metin Ertas (Istanbul University, Istanbul, Turkey), Isa Yildirim (Electronics and Communication Engineering Department, Istanbul Technical University, Istanbul, Turkey)

개요

MedSigLIP 기반의 프롬프트 기반 프레임워크를 제안하며, Feature-wise Linear Modulation (FiLM) 및 다중 스케일 풀링을 통해 텍스트 프롬프트를 주입합니다. 텍스트 프롬프트는 임상적 의도에 따라 패치-토큰 특징을 조건화하여 데이터 효율적인 학습과 빠른 적응을 가능하게 합니다. 이 아키텍처는 개별 회귀 헤드를 통해 융합된 경량 MLP로 글로벌, 로컬, 텍스처 인식 풀링을 결합하고, pairwise ranking loss로 훈련됩니다. LDCTIQA2023 (공개 LDCT 품질 평가 챌린지)에서 1,000개의 훈련 이미지를 사용하여 PLCC = 0.9575, SROCC = 0.9561, KROCC = 0.8301을 달성하여, 최고 등급의 챌린지 제출물을 능가하며 프롬프트 기반 접근 방식의 효과를 입증했습니다.

시사점, 한계점

시사점:
MedSigLIP 기반 프레임워크를 사용하여 LDCT 품질 평가에서 높은 성능 달성.
FiLM 및 다중 스케일 풀링을 통한 텍스트 프롬프트 주입으로 데이터 효율적인 학습과 빠른 적응 가능.
LDCTIQA2023 챌린지에서 최고 성능을 기록하며 프롬프트 기반 접근 방식의 효과 입증.
한계점:
구체적인 아키텍처 세부 사항 (예: MLP 구조, 풀링 방법)에 대한 설명 부족.
다른 데이터셋이나 다른 의료 영상 모달리티에 대한 일반화 성능 미제시.
훈련 데이터 수가 제한적인 경우 (1,000개 이미지)의 성능 분석 부재.
👍