AgriCoT: A Chain-of-Thought Benchmark for Evaluating Reasoning in Vision-Language Models for Agriculture
Created by
Haebom
Category
Empty
저자
Yibin Wen, Qingmei Li, Zi Ye, Jiarui Zhang, Jing Wu, Zurong Mai, Shuohong Lou, Yuhang Chen, Henglian Huang, Xiaoya Fan, Yang Zhang, Lingyuan Zhao, Haohuan Fu, Huang Jianxi, Juepeng Zheng
개요
Vision-Language Model (VLM)의 발전이 농업 분야에 미치는 긍정적 영향에 주목하여, VLM의 복잡한 농업 환경에서의 추론 및 문제 해결 능력 평가를 위한 Chain-of-Thought (CoT) 추론을 통합한 VQA 데이터셋 AgriCoT를 소개합니다. AgriCoT는 4,535개의 샘플로 구성되어 있으며, 제로샷 시나리오에서 VLM의 논리적 추론 및 문제 해결 능력을 평가하는 데 중점을 둡니다. 26개의 VLM 모델을 평가한 결과, 일부 모델은 질문에 답하는 데 능숙하지만 추론 능력에 상당한 격차가 있음을 확인하였고, CoT 통합의 중요성을 강조합니다.
시사점, 한계점
•
시사점:
◦
농업 분야에서 VLM의 활용 가능성을 높이고, VLM의 정확한 성능 평가를 위한 새로운 데이터셋 개발.