From Panel to Pixel: Zoom-In Vision-Language Pretraining from Biomedical Scientific Literature
Created by
Haebom
Category
Empty
저자
Kun Yuan, Min Woo Sun, Zhen Chen, Alejandro Lozano, Xiangteng He, Shi Li, Nassir Navab, Xiaoxiao Sun, Nicolas Padoy, Serena Yeung-Levy
개요
본 논문은 강력한 생물의학 시각-언어 모델 개발에 대한 관심이 증가함에 따라, 웹 규모의 과학적 데이터를 활용하는 접근 방식을 제시한다. 기존의 방식이 세밀한 구조를 무시하고 그림-수준의 쌍으로 압축하는 한계를 극복하기 위해, Panel2Patch라는 새로운 데이터 파이프라인을 도입한다. Panel2Patch는 과학 논문의 다중 패널, 마커가 많은 그림과 주변 텍스트에서 계층적 구조를 추출하여, 그림, 패널, 패치 수준에서 계층적으로 정렬된 시각-언어 쌍을 생성한다. 이를 통해 세분화된 의미를 유지하고, 적은 양의 사전 훈련 데이터로도 뛰어난 성능을 달성할 수 있도록 하는 세분성 인식 사전 훈련 전략을 개발한다.