Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Med-CRAFT: Automated Construction of Interpretable and Multi-Hop Video Workloads via Knowledge Graph Traversal

Created by
  • Haebom
Category
Empty

저자

Shenxi Liu, Kan Li, Mingyang Zhao, Yuhang Tian, Shoujun Zhou, Bin Li

개요

의료 분야의 멀티모달 대형 언어 모델(MLLM) 발전을 가로막는 고품질, 논리적으로 주석이 달린 비디오 데이터셋 부족 문제를 해결하기 위해, 저자들은 결정적 그래프 순회 프로세스로 벤치마크 합성을 공식화하는 새로운 신경-기호 데이터 엔지니어링 프레임워크인 \PipelineName을 제시한다. 이 프레임워크는 원시 비디오 스트림에서 구조화된 시각적 기본 요소를 추출하여 동적 시공간 지식 그래프에 인스턴스화한다. 이 그래프 내의 유효한 경로에 쿼리 생성을 고정함으로써, 각 합성 벤치마크 항목에 대한 엄격한 Chain-of-Thought(CoT) 출처를 적용한다. 이 파이프라인을 구현하여 미세한 시간 선택성과 다중 홉 논리적 복잡성을 나타내는 대규모 의료 비디오 추론 벤치마크인 M3-Med-Auto를 생성한다. 자동화된 파이프라인은 전문가가 큐레이팅한 데이터셋과 유사한 복잡성을 가진 쿼리 워크로드를 생성하며, 논리 정렬 분석은 처방된 그래프 토폴로지와 최첨단 MLLM의 추론 단계 간의 높은 상관관계를 보여준다.

시사점, 한계점

고품질, 논리적으로 주석이 달린 의료 비디오 데이터셋 부족 문제 해결.
블랙박스 생성 접근 방식과 달리, 구조화된 시각적 기본 요소를 추출하여 논리적 해석 가능성 제공.
자동화된 파이프라인을 통해 전문가가 큐레이팅한 데이터셋과 유사한 복잡성을 가진 쿼리 워크로드 생성.
논리 정렬 분석을 통해 시스템이 검증 가능한 논리를 시각-언어 벤치마크에 인코딩할 수 있음을 입증.
스케일링 가능하고 저비용으로 견고한 평가 프로토콜 구축 가능성 제시.
구체적인 한계점은 논문에 명시되지 않음.
👍