CaC: Advancing Video Reward Models via Hierarchical Spatiotemporal Concentrating

작성자

Haebom

카테고리

Empty

저자

Jiyuan Wang, Huan Ouyang, Jiuzhou Lin, Chunyu Lin, Dewen Fan, Boheng Zhang, Haonan Fan, Fei Zuo, Jia Sun, Huaiqing Wang, Honglie Wang, Yiyang Fan, Zhenlong Yuan, Zijun Li, Yongrui Heng, Guosheng Lin, Fan Yang, Tingting Gao

💡 개요

본 논문은 Vision-Language 모델을 기반으로 한 계층적 시공간 집중 기법을 사용하여 영상 이상 감지 성능을 향상시키는 새로운 보상 모델인 CaC(Concentrate and Concentrate)를 제안합니다. CaC는 먼저 전역적 시간 스캔을 통해 이상 시간 창을 식별하고, 이후 세밀한 공간 탐색을 거쳐 구조화된 시공간적 사고 사슬 추론을 통해 최종 판단을 내립니다. 이를 위해 본 연구에서는 대규모 영상 이상 데이터셋을 구축하고, 3단계 점진적 학습 방식을 통해 모델을 훈련시켰습니다.

🔑 시사점 및 한계

•

CaC는 세밀한 이상 징후를 안정적으로 포착하여 기존 방식 대비 정확도를 크게 향상시켰습니다.

•

CaC를 생성 모델의 보상 신호로 활용할 경우, 영상 내 이상 현상을 효과적으로 감소시키면서 전반적인 영상 품질을 개선할 수 있습니다.

•

본 연구에서 제안된 3단계 학습 패러다임과 중간 보상 설계는 영상 이상 감지 분야의 발전에 기여할 수 있습니다.

•

향후 연구에서는 다양한 유형의 영상 이상에 대한 일반화 성능을 높이고, 실제 환경에서의 적용 가능성을 탐색할 필요가 있습니다.

PDF 보기

Made with Slashpage