haebom
Sign In
OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention
Created by
Haebom
Category
Empty
μ μ
Zhangquan Chen, Jiale Tao, Ruihuang Li, Yihao Hu, Ruitao Chen, Zhantao Yang, Xinlei Yu, Haodong Jing, Manyuan Zhang, Shuai Shao, Biao Wang, Qinglin Lu, Ruqi Huang
π‘ κ°μ
λ³Έ λ Όλ¬Έμ μΈκ°μ²λΌ μ¬λ¬ κ°κ° μ 보λ₯Ό ν΅ν©νμ¬ μΈμμ μ΄ν΄νλ λ° μ΄λ €μμ κ²ͺλ κΈ°μ‘΄μ μ΄λλΉλμ€ λͺ¨λΈμ νκ³λ₯Ό 극볡νκ³ μ ν©λλ€. μ΄λ₯Ό μν΄ OmniVideo-R1μ΄λΌλ μλ‘μ΄ κ°ν νλ μμν¬λ₯Ό μ μνλ©°, μ΄λ 쿼리 κΈ°λ° μ§μ€ νμ΅κ³Ό λͺ¨λ¬λ¦¬ν° μ£Όμ μ΅ν©μ ν΅ν΄ λ€μ€ κ°κ° μ 보 μΆλ‘ λ₯λ ₯μ ν₯μμν΅λλ€. μ μλ λ°©λ²λ‘ μ μ¬λ¬ λ²€μΉλ§ν¬μμ κΈ°μ‘΄ λͺ¨λΈ λλΉ μ°μν μ±λ₯μ 보μ¬, κ·Έ ν¨κ³Όμ±κ³Ό μΌλ°ν λ₯λ ₯μ μ μ¦νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
λ€μ€ κ°κ° μ 보(μκ°, μ²κ° λ±)λ₯Ό λμ± ν¨κ³Όμ μΌλ‘ ν΅ν©νμ¬ μ΄λλΉλμ€ μ΄ν΄λ₯Ό κ°ννλ μλ‘μ΄ μ κ·Ό λ°©μμ μ μν©λλ€.
β’
μκΈ° μ§λ νμ΅ λ° λμ‘° νμ΅ ν¨λ¬λ€μμ νμ©νμ¬ λͺ¨λΈμ μΆλ‘ λ₯λ ₯μ 'κ°ν'νλ νλ μμν¬λ₯Ό μ μν©λλ€.
β’
μ μλ OmniVideo-R1μ λ€μν λ²€μΉλ§ν¬μμ κ°λ ₯ν μ±λ₯μ 보μ΄λ©°, μ΄λλΉλμ€ μ΄ν΄ λΆμΌμ λ°μ μ κΈ°μ¬ν μ μ¬λ ₯μ κ°μ§κ³ μμ΅λλ€.
β’
(νκ³μ λλ ν₯ν κ³Όμ ) λ Όλ¬Έ μ΄λ‘λ§μΌλ‘λ ꡬ체μ μΈ νκ³μ μ΄λ ν₯ν μ°κ΅¬ λ°©ν₯μ λͺ νν νμ νκΈ° μ΄λ ΅μ΅λλ€. (μ: μ€μ μ μ© μμ κ³μ° 볡μ‘μ±, νΉμ λ°μ΄ν°μ μ λν κ³Όμ ν© κ°λ₯μ±, λ€λ₯Έ λͺ¨λ¬λ¦¬ν°λ‘μ νμ₯μ± λ±)
PDF 보기
Made with Slashpage