haebom
Sign In
Distilling 3D Spatial Reasoning into a Lightweight Vision-Language Model with CoT
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Alaa Asfour, Christopher Indris, Leihan Chen, Tejas Vyas, Guanghui Wang
π‘ κ°μ
λ³Έ λ Όλ¬Έμ μ°μ° λΉμ©μ΄ λμ λκ·λͺ¨ 3D λΉμ -μΈμ΄ λͺ¨λΈ(VLM)μ κ³΅κ° μΆλ‘ λ₯λ ₯μ 70μ΅ κ°μ λ§€κ°λ³μλ₯Ό κ°μ§ κ΅μ¬ λͺ¨λΈμμ 22.9μ΅ κ°μ νμ λͺ¨λΈλ‘ ν¨μ¨μ μΌλ‘ μ΄μ νλ μ§μ μ¦λ₯ νλ μμν¬λ₯Ό μ μν©λλ€. μ μλ λ°©λ²μ μ°μ°λ κ°μμ λͺ¨λΈ ν¬κΈ° μΆμμλ λΆκ΅¬νκ³ κ΅μ¬ λͺ¨λΈ μ±λ₯μ 54-72%λ₯Ό μ μ§νλ©°, νΉν Chain-of-Thought(CoT) λ°μ΄ν° μμ΄λ μ μ¬ ν ν°μ νμ©ν "Hidden CoT" κΈ°λ²μΌλ‘ μΆλ‘ λ₯λ ₯μ κ°νν©λλ€. μ΄λ₯Ό ν΅ν΄ μμμ΄ μ νλ νκ²½μμλ ν¨μ¨μ μΈ 3D μ₯λ©΄ μ§μμλ΅μ΄ κ°λ₯ν΄μ§λλ€.
π μμ¬μ λ° νκ³
β’
κ²½λνλ 3D VLM κ΅¬μΆ κ°λ₯μ± νμΈ:
λμ μ±λ₯μ μ μ§νλ©΄μ λͺ¨λΈ ν¬κΈ°μ μ°μ° λΉμ©μ νκΈ°μ μΌλ‘ μ€μ¬ μ€μ§μ μΈ λ°°ν¬ κ°λ₯μ±μ μ΄μμ΅λλ€.
β’
"Hidden CoT" κΈ°λ²μ ν¨κ³Ό μ μ¦:
λ³λμ CoT λ°μ΄ν°λ₯Ό μ¬μ©νμ§ μκ³ λ μ μ¬ ν ν°μ ν΅ν΄ λ΄λΆμ μΈ μΆλ‘ κ³Όμ μ νμ΅μμΌ μ±λ₯μ ν₯μμν¬ μ μμμ 보μ¬μ€λλ€.
β’
λ€μν 3D κ³΅κ° μΆλ‘ λ₯λ ₯ ν΅ν©:
κ³΅κ° μ€λͺ , κΉμ΄ μΆμ , κ°μ²΄ νμ§ λ± μ¬λ¬ 3D κ΄λ ¨ μμ μ ν΅ν©μ μΌλ‘ μννλ νμ λͺ¨λΈμ κ°λ₯μ±μ μ μν©λλ€.
β’
μ±λ₯ μ μ§μ νκ³:
μ¦λ₯ κ³Όμ μμ κ΅μ¬ λͺ¨λΈμ μ±λ₯μ μμ ν λ°λΌμ‘μ§λ λͺ»νλ©°, μΌλΆ μμ μμλ μλΉν μ±λ₯ κ²©μ°¨κ° λ°μν μ μμ΅λλ€.
β’
"Hidden CoT"μ μ΅μ ν:
μ μ¬ ν ν°μ κ°μ, ꡬ쑰, νμ΅ λ°©μ λ±μ λν μΆκ°μ μΈ μ°κ΅¬λ₯Ό ν΅ν΄ μ±λ₯μ λμ± κ°μ ν μ¬μ§κ° μμ΅λλ€.
PDF 보기
Made with Slashpage