Sign In

CaC: Advancing Video Reward Models via Hierarchical Spatiotemporal Concentrating

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Jiyuan Wang, Huan Ouyang, Jiuzhou Lin, Chunyu Lin, Dewen Fan, Boheng Zhang, Haonan Fan, Fei Zuo, Jia Sun, Huaiqing Wang, Honglie Wang, Yiyang Fan, Zhenlong Yuan, Zijun Li, Yongrui Heng, Guosheng Lin, Fan Yang, Tingting Gao

πŸ’‘ κ°œμš”

λ³Έ 논문은 Vision-Language λͺ¨λΈμ„ 기반으둜 ν•œ 계측적 μ‹œκ³΅κ°„ 집쀑 기법을 μ‚¬μš©ν•˜μ—¬ μ˜μƒ 이상 감지 μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ” μƒˆλ‘œμš΄ 보상 λͺ¨λΈμΈ CaC(Concentrate and Concentrate)λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. CaCλŠ” λ¨Όμ € 전역적 μ‹œκ°„ μŠ€μΊ”μ„ 톡해 이상 μ‹œκ°„ 창을 μ‹λ³„ν•˜κ³ , 이후 μ„Έλ°€ν•œ 곡간 탐색을 거쳐 κ΅¬μ‘°ν™”λœ μ‹œκ³΅κ°„μ  사고 μ‚¬μŠ¬ 좔둠을 톡해 μ΅œμ’… νŒλ‹¨μ„ λ‚΄λ¦½λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ λ³Έ μ—°κ΅¬μ—μ„œλŠ” λŒ€κ·œλͺ¨ μ˜μƒ 이상 데이터셋을 κ΅¬μΆ•ν•˜κ³ , 3단계 점진적 ν•™μŠ΅ 방식을 톡해 λͺ¨λΈμ„ ν›ˆλ ¨μ‹œμΌ°μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
CaCλŠ” μ„Έλ°€ν•œ 이상 μ§•ν›„λ₯Ό μ•ˆμ •μ μœΌλ‘œ ν¬μ°©ν•˜μ—¬ κΈ°μ‘΄ 방식 λŒ€λΉ„ 정확도λ₯Ό 크게 ν–₯μƒμ‹œμΌ°μŠ΅λ‹ˆλ‹€.
β€’
CaCλ₯Ό 생성 λͺ¨λΈμ˜ 보상 μ‹ ν˜Έλ‘œ ν™œμš©ν•  경우, μ˜μƒ λ‚΄ 이상 ν˜„μƒμ„ 효과적으둜 κ°μ†Œμ‹œν‚€λ©΄μ„œ μ „λ°˜μ μΈ μ˜μƒ ν’ˆμ§ˆμ„ κ°œμ„ ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ μ œμ•ˆλœ 3단계 ν•™μŠ΅ νŒ¨λŸ¬λ‹€μž„κ³Ό 쀑간 보상 μ„€κ³„λŠ” μ˜μƒ 이상 감지 λΆ„μ•Όμ˜ λ°œμ „μ— κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” λ‹€μ–‘ν•œ μœ ν˜•μ˜ μ˜μƒ 이상에 λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯을 높이고, μ‹€μ œ ν™˜κ²½μ—μ„œμ˜ 적용 κ°€λŠ₯성을 탐색할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘