RAVEN은 대규모 비디오 컬렉션에서 다중 모달 엔티티 발견 및 검색을 위해 설계된 적응형 AI 에이전트 프레임워크입니다. 시각, 오디오 및 텍스트 모달리티를 통합하여 RAVEN은 비디오 데이터를 자율적으로 처리하여 후속 작업을 위한 구조화되고 실행 가능한 표현을 생성합니다. 주요 기여는 다음과 같습니다. (1) 비디오 주제와 범용 엔티티를 추론하는 범주 이해 단계, (2) 도메인별 엔티티와 속성을 동적으로 정의하는 스키마 생성 메커니즘, (3) 의미 검색과 스키마 기반 프롬프팅을 활용하는 풍부한 엔티티 추출 프로세스. RAVEN은 모델과 독립적으로 설계되어 애플리케이션별 요구 사항에 따라 다양한 비전-언어 모델(VLM)과 대규모 언어 모델(LLM)을 통합할 수 있습니다. 이러한 유연성은 개인화된 검색, 콘텐츠 발견 및 확장 가능한 정보 검색에서 다양한 애플리케이션을 지원하여 방대한 데이터 세트에서 실용적인 애플리케이션을 가능하게 합니다.