PlantVillageVQA: A Visual Question Answering Dataset for Benchmarking Vision-Language Models in Plant Science
Created by
Haebom
저자
Syed Nazmus Sakib, Nafiul Haque, Mohammad Zabed Hossain, Shifat E. Arman
개요
PlantVillageVQA는 널리 사용되는 PlantVillage 이미지 데이터셋을 기반으로 한 대규모 시각적 질의응답(VQA) 데이터셋입니다. 농업 의사결정 및 분석을 위한 시각-언어 모델의 개발 및 평가를 발전시키기 위해 고안되었습니다. 14가지 작물 종과 38가지 질병 상태를 포함하는 55,448개의 이미지에 기반한 193,609개의 고품질 질문-답변(QA) 쌍으로 구성됩니다. 질문은 3가지 수준의 인지적 복잡성과 9가지 뚜렷한 범주로 구성됩니다. 각 질문 범주는 전문가의 지침에 따라 수동으로 작성되었으며 자동화된 2단계 파이프라인(1단계: 이미지 메타데이터를 이용한 템플릿 기반 QA 합성, 2단계: 다단계 언어적 재구성)을 통해 생성되었습니다. 데이터셋은 과학적 정확성과 관련성을 위해 도메인 전문가에 의해 반복적으로 검토되었습니다. 최종 데이터셋은 품질 평가를 위해 최첨단 모델 3가지를 사용하여 평가되었습니다. 본 연구의 목표는 식물 질병 식별의 진단 정확도를 높이고 농업 분야의 과학 연구를 발전시키기 위해 공개적으로 이용 가능하고 표준화되며 전문가가 검증한 데이터베이스를 제공하는 것입니다. 해당 데이터셋은 https://huggingface.co/datasets/SyedNazmusSakib/PlantVillageVQA 에서 공개될 예정입니다.