본 논문은 비디오-언어 모델(VideoLLMs)에서 발생하는 환각 현상(hallucination) 문제를 해결하기 위해 ResNetVLLM을 개선한 ResNetVLLM-2를 제시합니다. ResNetVLLM-2는 수정된 Lynx 모델을 이용한 정확성 검출 전략과 추론 과정 중 동적으로 생성되는 임시 지식 기반을 활용한 RAG(Retrieval-Augmented Generation) 기반 환각 완화 전략을 두 단계로 적용합니다. ActivityNet-QA 벤치마크 평가 결과, 정확도가 54.8%에서 65.3%로 크게 향상되어 제시된 방법의 효과를 확인했습니다.