haebom
Sign In
CaC: Advancing Video Reward Models via Hierarchical Spatiotemporal Concentrating
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Jiyuan Wang, Huan Ouyang, Jiuzhou Lin, Chunyu Lin, Dewen Fan, Boheng Zhang, Haonan Fan, Fei Zuo, Jia Sun, Huaiqing Wang, Honglie Wang, Yiyang Fan, Zhenlong Yuan, Zijun Li, Yongrui Heng, Guosheng Lin, Fan Yang, Tingting Gao
π‘ κ°μ
λ³Έ λ Όλ¬Έμ Vision-Language λͺ¨λΈμ κΈ°λ°μΌλ‘ ν κ³μΈ΅μ μκ³΅κ° μ§μ€ κΈ°λ²μ μ¬μ©νμ¬ μμ μ΄μ κ°μ§ μ±λ₯μ ν₯μμν€λ μλ‘μ΄ λ³΄μ λͺ¨λΈμΈ CaC(Concentrate and Concentrate)λ₯Ό μ μν©λλ€. CaCλ λ¨Όμ μ μμ μκ° μ€μΊμ ν΅ν΄ μ΄μ μκ° μ°½μ μλ³νκ³ , μ΄ν μΈλ°ν κ³΅κ° νμμ κ±°μ³ κ΅¬μ‘°νλ μ곡κ°μ μ¬κ³ μ¬μ¬ μΆλ‘ μ ν΅ν΄ μ΅μ’ νλ¨μ λ΄λ¦½λλ€. μ΄λ₯Ό μν΄ λ³Έ μ°κ΅¬μμλ λκ·λͺ¨ μμ μ΄μ λ°μ΄ν°μ μ ꡬμΆνκ³ , 3λ¨κ³ μ μ§μ νμ΅ λ°©μμ ν΅ν΄ λͺ¨λΈμ νλ ¨μμΌ°μ΅λλ€.
π μμ¬μ λ° νκ³
β’
CaCλ μΈλ°ν μ΄μ μ§νλ₯Ό μμ μ μΌλ‘ ν¬μ°©νμ¬ κΈ°μ‘΄ λ°©μ λλΉ μ νλλ₯Ό ν¬κ² ν₯μμμΌ°μ΅λλ€.
β’
CaCλ₯Ό μμ± λͺ¨λΈμ 보μ μ νΈλ‘ νμ©ν κ²½μ°, μμ λ΄ μ΄μ νμμ ν¨κ³Όμ μΌλ‘ κ°μμν€λ©΄μ μ λ°μ μΈ μμ νμ§μ κ°μ ν μ μμ΅λλ€.
β’
λ³Έ μ°κ΅¬μμ μ μλ 3λ¨κ³ νμ΅ ν¨λ¬λ€μκ³Ό μ€κ° 보μ μ€κ³λ μμ μ΄μ κ°μ§ λΆμΌμ λ°μ μ κΈ°μ¬ν μ μμ΅λλ€.
β’
ν₯ν μ°κ΅¬μμλ λ€μν μ νμ μμ μ΄μμ λν μΌλ°ν μ±λ₯μ λμ΄κ³ , μ€μ νκ²½μμμ μ μ© κ°λ₯μ±μ νμν νμκ° μμ΅λλ€.
PDF 보기
Made with Slashpage