Sign In

Text-VQA Aug: Pipelined Harnessing of Large Multimodal Models for Automated Synthesis

Created by
  • Haebom
Category
Empty

저자

Soham Joshi, Shwet Kamal Mishra, Viswanath Gopalakrishnan

개요

본 논문은 이미지 내 텍스트 데이터를 기반으로 하는 시각 질의 응답(text-VQA) 작업을 위한 대규모 데이터베이스를 자동 생성하는 파이프라인을 제안합니다. 이 파이프라인은 OCR, ROI 감지, 캡션 생성 및 질문 생성을 포함하는 여러 모델과 알고리즘을 활용하여 QA 쌍을 생성하고 검증합니다. 약 44,000개의 이미지에 대해 약 72,000개의 QA 쌍을 포함하는 대규모 text-VQA 데이터셋을 자동 생성하는 최초의 파이프라인입니다.

시사점, 한계점

시사점:
수동 주석 작업의 어려움을 해결하고 대규모 text-VQA 데이터셋을 자동 생성하는 혁신적인 접근 방식 제시
다양한 모델과 알고리즘을 통합하여 QA 쌍을 생성하는 파이프라인 구축
대규모 text-VQA 데이터셋 자동 생성으로 시각 질의 응답 연구 발전에 기여
한계점:
파이프라인의 정확성과 성능은 사용된 개별 모델의 성능에 의존적일 수 있음
자동 생성된 QA 쌍의 품질 검증 및 개선에 대한 추가 연구 필요
파이프라인의 일반화 가능성 및 다양한 도메인으로의 확장성 평가 필요
👍