본 논문은 시각적으로 풍부한 정보에 대한 효과적인 검색, 추론 및 이해가 RAG(Retrieval Augmented Generation) 방법의 과제임을 지적합니다. 기존의 텍스트 기반 방법은 시각 정보를 처리하지 못하고, 기존의 시각 기반 RAG 접근 방식은 고정된 파이프라인으로 인해 제한적이며 모델의 기본 기능 활성화 부족으로 효과적인 추론에 어려움을 겪습니다. 따라서 본 논문에서는 시각적으로 풍부한 정보에 대한 복잡한 추론을 위해 설계된 새로운 RL(Reinforcement Learning) 프레임워크인 VRAG-RL을 제시합니다. VRAG-RL은 VLMs(Vision-Language Models)가 검색 엔진과 상호 작용하여 시각적 인식 토큰을 활용하여 단일 턴 또는 다중 턴 추론 경로를 자율적으로 샘플링하고, 이러한 샘플을 기반으로 지속적인 최적화를 수행합니다. 기존 다중 모달 RAG 접근 방식의 한계(시각적 특징 인식 부족 및 관련 정보 검색 실패)를 해결하기 위해, VRAG-RL은 자르기 및 크기 조정 등의 동작을 포함하는 시각적으로 풍부한 입력을 위한 동작 공간을 정의하고, 쿼리 재작성 및 검색 성능을 통합한 보상을 사용하여 사용자의 원래 질문과 검색 엔진 사이의 간극을 해소합니다. VRAG-RL은 특별히 설계된 RL 전략을 사용하여 RAG 작업에 대한 VLMs를 최적화하여 실제 응용 프로그램과의 일치성을 높입니다. 코드는 GitHub에서 공개됩니다.
시사점, 한계점
•
시사점:
◦
시각적으로 풍부한 정보에 대한 효과적인 RAG를 위한 새로운 RL 프레임워크 VRAG-RL 제시