haebom
Sign In
From Scene to Object: Text-Guided Dual-Gaze Prediction
Created by
Haebom
Category
Empty
μ μ
Zehong Ke, Yanbo Jiang, Jinhao Li, Zhiyuan Liu, Yiqian Tu, Qingwen Meng, Heye Huang, Jianqiang Wang
π‘ κ°μ
λ³Έ λ Όλ¬Έμ μμ¨μ£Όν μ μ΄μ μ μμ μμΈ‘μ μ νλλ₯Ό λμ΄κΈ° μν΄ κ°μ²΄ μμ€μ μΈλ°ν μ£Όμμ΄ λΆμ‘±ν κΈ°μ‘΄ λ°μ΄ν°μ μ νκ³λ₯Ό μ§μ ν©λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ μ μλ€μ Segment Anything Model 3 (SAM3)κ³Ό λ©ν°λͺ¨λ¬ λκ·λͺ¨ μΈμ΄ λͺ¨λΈμ νμ©νμ¬ κ°μ²΄ μμ€μ μ΄μ μ μ£Όμ λ°μ΄ν°μ μΈ G-W3DAλ₯Ό μλ‘κ² κ΅¬μΆνμ΅λλ€. λν, μ μλ DualGaze-VLM λͺ¨λΈμ λ°μ΄ν°μ μ νμ§μ κΈ°λ°μΌλ‘ μλ―Έλ‘ μ 쿼리μ μ¨κ²¨μ§ μνλ₯Ό μΆμΆνκ³ μκ°μ νΉμ§μ λμ μΌλ‘ μ‘°μ νμ¬ μμ μ΄ μ€μν μλ리μ€μμ κΈ°μ‘΄ μ΅κ³ μ±λ₯ λͺ¨λΈ λλΉ μ΅λ 17.8%μ SIM ν₯μμ λ¬μ±νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
μ΄μ μ μμ μμΈ‘μ μν κ³ νμ§μ κ°μ²΄ μμ€ μ£Όμ λ°μ΄ν°μ ꡬμΆμ μ€μμ±κ³Ό κ°λ₯μ±μ μ μν©λλ€.
β’
λ©ν°λͺ¨λ¬ λκ·λͺ¨ μΈμ΄ λͺ¨λΈκ³Ό κ°μ²΄ λΆν λͺ¨λΈμ κ²°ν©νμ¬ ν μ€νΈ κΈ°λ°μ μ λ°ν μΈμ§ λͺ¨λΈλ§μ΄ κ°λ₯ν¨μ 보μ¬μ€λλ€.
β’
μ μλ DualGaze-VLM λͺ¨λΈμ κ°μ²΄ μμ€μ μμ μμΈ‘μμ λ°μ΄λ μ±λ₯μ 보μ΄λ©°, μ€μ μ΄μ μν©μμμ μΈκ°κ³Ό μ μ¬ν μΈμ§ κ³Όμ μ λͺ¨λ°©ν μ μμμ μ μ¦νμ΅λλ€.
β’
ν΄λΉ μ°κ΅¬λ μμ¨μ£Όν μμ€ν μ ν΄μ κ°λ₯μ±κ³Ό μμ μ±μ ν₯μμν€λ λ° κΈ°μ¬ν μ μ¬λ ₯μ κ°μ§λλ€.
β’
νμ¬ λ°μ΄ν°μ κ΅¬μΆ λ°©λ²λ‘ μ΄ νΉμ λꡬ(SAM3)μ μμ‘΄νκ³ μμ΄, λ²μ©μ μΈ μ μ© κ°λ₯μ±μ λν μΆκ°μ μΈ κ²μ¦μ΄ νμν μ μμ΅λλ€.
β’
μ€μ μ£Όν νκ²½μ λ€μμ± λ° λ³΅μ‘μ±μ μλ²½νκ² λ°μνκΈ° μν μΆκ°μ μΈ λ°μ΄ν° μ¦κ° λ° λͺ¨λΈ κ°μ μ΄ νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage