Sign In

Thought-For-Food: Reasoning Chain Induced Food Visual Question Answering

Created by
  • Haebom
Category
Empty

저자

Riddhi Jain, Manasi Patwardhan, Parijat Deshpande, Venkataramana Runkana

개요

인도 음식의 문화와 요리의 다양성에도 불구하고 기존의 시각 질의 응답(VQA) 시스템이 서양 음식에 편향되어 있다는 점을 지적하며, 인도 음식에 특화된 VQA 시스템 구축의 필요성을 제기한다. 특히, 복잡한 요리 맥락과 다양한 음식 간의 관계를 이해해야 하는 인도 음식 VQA의 특성상 다단계 추론 과정이 중요하다고 주장한다. 최소한의 인적 개입으로 추론 체인을 생성하고, 이를 활용하여 소규모 LLM 및 VLM을 미세 조정하며, 강화 학습을 통해 추가 학습을 진행한다. 그 결과, 추론 체인 추가를 통해 기준선 대비 평균 10%의 정확도 향상을 확인하였으며, 인도 음식 VQA 작업에서의 추론 체인 추가 효과에 대한 상세 분석을 제공한다.

시사점, 한계점

인도 음식 VQA를 위한 다단계 추론 과정의 중요성 강조.
추론 체인 기반의 VQA 시스템 구축 및 성능 향상 입증.
소규모 LLM 및 VLM의 미세 조정과 강화 학습을 통한 학습 방법 제시.
인도 음식 VQA 작업에서의 추론 체인 추가 효과에 대한 상세 분석 제공.
(한계점) 구체적인 한계점 언급은 논문에 나타나 있지 않음. (예: 데이터셋의 크기, 특정 음식 유형에 대한 편향성 등)
👍