본 논문은 Facebook AI Research의 KRISP 모델을 재조명하여, 자원 제약적인 환경에서도 효율적인 시각-언어 추론을 수행할 수 있는 경량화된 모델을 제안합니다. 원본 모델의 성능을 약 75% 수준으로 유지하면서, 설계 결함과 실제 문제들을 파악하고, 합성 VQA 데이터 및 DAQUAR 데이터셋을 활용한 실험을 통해 지식 기반 VQA 아키텍처의 확장성과 효율성에 대한 통찰력을 제공합니다. 특히, 적은 파라미터를 통해 AI 환각을 방지하고 특정 도메인 내에서만 출력을 생성하며, 스마트폰 및 AR/VR 기기 같은 엣지 디바이스에서의 오프라인 시각 추론을 가능하게 합니다.