PreMind는 강의 영상의 효과적인 이해 및 색인을 위한 새로운 다중 에이전트 다중 모달 프레임워크입니다. Vision-Language Model(VLM)을 활용하여 영상을 슬라이드 단위로 분할하고, 각 슬라이드의 시각적 내용 추출, 음성 내용 전사, 시각 및 음성 내용 통합 이해라는 세 단계를 거쳐 다중 모달 색인을 생성합니다. 기존 지식 활용, 전사 오류 수정, 시각 분석에 대한 반복적 자기 반성 등의 혁신적인 메커니즘을 통해 성능을 향상시키며, LPM 공개 데이터셋과 내부 기업 데이터셋을 이용한 실험을 통해 효과를 검증합니다. 기존 방법과 달리 슬라이드에만 표시된 약어와 같은 세부 정보 검색이 가능하도록 풍부하고 신뢰할 수 있는 다중 모달 정보를 캡처합니다.