haebom
Sign In
Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding
Created by
Haebom
Category
Empty
μ μ
Ziyang Wang, Honglu Zhou, Shijie Wang, Junnan Li, Caiming Xiong, Silvio Savarese, Mohit Bansal, Michael S. Ryoo, Juan Carlos Niebles
π‘ κ°μ
λ³Έ λ Όλ¬Έμ μ₯μκ° λΉλμ€ μ΄ν΄(LVU)λ₯Ό μν λ₯λμ λΉλμ€ μΈμ(AVP) νλ μμν¬λ₯Ό μ μν©λλ€. AVPλ μ§μμ λ΅νκΈ° μν΄ λΉλμ€ λ΄μμ κ΄λ ¨ μ 보λ₯Ό μ κ·Ήμ μΌλ‘ νμνλ©°, λΆνμν κ³μ°μ μ€μ΄κ³ μΈλ°ν μκ°μ , 곡κ°μ μ 보λ₯Ό 보쑴ν©λλ€. μ μλ AVPλ λ°λ³΅μ μΈ κ³ν-κ΄μ°°-λ°μ κ³Όμ μ ν΅ν΄ μ§μ κ΄λ ¨ μ¦κ±°λ₯Ό μ§μ νλνλ©°, 5κ°μ LVU λ²€μΉλ§ν¬μμ κΈ°μ‘΄ λ°©λ²λ‘ λλΉ λ°μ΄λ μ±λ₯κ³Ό ν¨μ¨μ±μ λ¬μ±νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
λ₯λμ μΈ μ 보 νλ μ λ΅μ ν΅ν΄ μ₯μκ° λΉλμ€ μ΄ν΄μ μ νμ±κ³Ό ν¨μ¨μ±μ λͺ¨λ κ°μ νμ΅λλ€.
β’
μ νλ κ³μ° μμμ μ¬μ©νμ¬ λ³΅μ‘ν λΉλμ€ μ§μμ ν¨κ³Όμ μΌλ‘ λ΅ν μ μλ μλ‘μ΄ μ κ·Ό λ°©μμ μ μνμ΅λλ€.
β’
λ³Έ μ°κ΅¬λ AVPκ° νμ¬ μ¬μ© κ°λ₯ν λͺ¨λ μ 보λ₯Ό μΆ©λΆν νμ©νλμ§, κ·Έλ¦¬κ³ λ³΅μ‘ν μνΈμμ©μ΄ νμν κ²½μ°μ μ±λ₯μ λν μΆκ°μ μΈ μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage