인도 음식의 문화와 요리의 다양성에도 불구하고 기존의 시각 질의 응답(VQA) 시스템이 서양 음식에 편향되어 있다는 점을 지적하며, 인도 음식에 특화된 VQA 시스템 구축의 필요성을 제기한다. 특히, 복잡한 요리 맥락과 다양한 음식 간의 관계를 이해해야 하는 인도 음식 VQA의 특성상 다단계 추론 과정이 중요하다고 주장한다. 최소한의 인적 개입으로 추론 체인을 생성하고, 이를 활용하여 소규모 LLM 및 VLM을 미세 조정하며, 강화 학습을 통해 추가 학습을 진행한다. 그 결과, 추론 체인 추가를 통해 기준선 대비 평균 10%의 정확도 향상을 확인하였으며, 인도 음식 VQA 작업에서의 추론 체인 추가 효과에 대한 상세 분석을 제공한다.