MCAT: Visual Query-Based Localization of Standard Anatomical Clips in Fetal Ultrasound Videos Using Multi-Tier Class-Aware Token Transformer
Created by
Haebom
저자
Divyanshu Mishra, Pramit Saha, He Zhao, Netzahualcoyotl Hernandez-Cruz, Olga Patey, Aris Papageorghiou, J. Alison Noble
개요
본 논문은 태아 초음파 영상에서 표준면 획득을 자동화하는 새로운 방법인 Multi-Tier Class-Aware Token Transformer (MCAT)를 제시합니다. 기존의 이미지 기반 방법과 달리, MCAT는 영상의 동적인 특성을 고려하여 시각적 질의 기반 비디오 클립 위치 확인(VQ-VCL) 방식을 사용합니다. 임상의가 분석하고자 하는 해부학적 구조의 시각적 질의를 제공하면, MCAT는 해당 구조의 표준 프레임을 포함하는 비디오 클립을 반환합니다. 두 개의 초음파 영상 데이터셋과 Ego4D 데이터셋을 사용한 실험 결과, MCAT는 기존 최첨단 방법보다 10~13% 향상된 mIoU 성능을 보였으며, 토큰 사용량은 96% 감소시켰습니다. 이는 특히 저소득 및 중간소득 국가에서 태아 초음파 검사의 효율성을 높여 공중 보건에 크게 기여할 수 있음을 시사합니다.
시사점, 한계점
•
시사점:
◦
태아 초음파 영상에서 표준면 획득의 자동화를 통해 시간을 절약하고, 판독자 간의 차이를 줄일 수 있습니다.
◦
저소득 및 중간소득 국가에서 태아 초음파 검사의 접근성 및 효율성을 향상시킬 수 있습니다.
◦
더욱 정확하고 효율적인 태아 성장 평가 및 기형 검출을 가능하게 합니다.
◦
시각적 질의 기반 접근 방식을 통해 사용자 친화적인 인터페이스를 제공할 수 있습니다.
•
한계점:
◦
본 연구는 제한된 데이터셋을 사용하여 평가되었으므로, 다양한 데이터셋에 대한 추가적인 검증이 필요합니다.