KunLunBaize-VoT-R1은 장 序列 이미지 인코더를 기반으로 하는 비디오 추론 모델로, 이미지 패킹 기술, 전문가 자율성(AoE) 아키텍처, 그리고 대규모 강화 학습으로 훈련된 거대 언어 모델(LLM)인 Thought of Video(VoT)를 통합하여 비디오-언어 사전 학습 분야에서의 추론 효율성 및 다중 모드 데이터 처리 문제를 해결합니다. 다양한 훈련 기법을 결합하여 비디오 추론 작업에서 모델의 효율성과 정확도를 효과적으로 향상시키며, 여러 실험에서 뛰어난 성능을 보여 비디오-언어 이해에 대한 새로운 해결책을 제시합니다.