Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

PlantVillageVQA: A Visual Question Answering Dataset for Benchmarking Vision-Language Models in Plant Science

Created by
  • Haebom

作者

Syed Nazmus Sakib, Nafiul Haque, Mohammad Zabed Hossain, Shifat E. Arman

概要

PlantVillageVQA は、広く使用されている PlantVillage イメージ データセットに基づいた大規模な視覚的クエリ応答 (VQA) データセットです。農業の意思決定と分析のための視覚言語モデルの開発と評価を進めるように設計されています。 14種類の作物種と38種類の疾患状態を含む55,448の画像に基づく193,609の高品質の質問 - 回答(QA)のペアで構成されています。質問は、3つのレベルの認知的複雑さと9つの異なるカテゴリーで構成されています。各質問カテゴリは専門家の指示に従って手動で作成され、自動化された2段階パイプライン(1段階:イメージメタデータを使用したテンプレートベースのQA合成、2段階:多段階言語再構成)によって作成されました。データセットは、科学的精度と関連性のためにドメインの専門家によって繰り返しレビューされました。最終データセットは、品質評価のために最先端の3つのモデルを使用して評価されました。本研究の目的は、植物疾患識別の診断精度を高め、農業分野の科学研究を進めるために公に利用可能で標準化され、専門家によって検証されたデータベースを提供することです。このデータセットはhttps://huggingface.co/datasets/SyedNazmusSakib/PlantVillageVQAで公開される予定です。

Takeaways、Limitations

Takeaways:
農業分野の視覚 - 言語モデルの開発と評価のための大規模で高品質のVQAデータセットを提供します。
植物病の診断精度の向上に貢献
農業分野の科学研究の発展に貢献
専門家検証を経た標準化されたデータセットを提供。
Limitations:
データセットのサイズと品質に関する追加の検証研究が必要です。
質問生成パイプラインの制限に関する追加の分析が必要です。
特定の作物や病気に関するデータの不均衡の可能性
実際の農業環境での適用性に関するさらなる研究の必要性
👍