Text-VQA Aug: Pipelined Harnessing of Large Multimodal Models for Automated Synthesis
Created by
Haebom
Category
Empty
저자
Soham Joshi, Shwet Kamal Mishra, Viswanath Gopalakrishnan
개요
본 논문은 이미지 내 텍스트 데이터를 기반으로 하는 시각 질의 응답(text-VQA) 작업을 위한 대규모 데이터베이스를 자동 생성하는 파이프라인을 제안합니다. 이 파이프라인은 OCR, ROI 감지, 캡션 생성 및 질문 생성을 포함하는 여러 모델과 알고리즘을 활용하여 QA 쌍을 생성하고 검증합니다. 약 44,000개의 이미지에 대해 약 72,000개의 QA 쌍을 포함하는 대규모 text-VQA 데이터셋을 자동 생성하는 최초의 파이프라인입니다.
시사점, 한계점
•
시사점:
◦
수동 주석 작업의 어려움을 해결하고 대규모 text-VQA 데이터셋을 자동 생성하는 혁신적인 접근 방식 제시