haebom
Sign In
Mitigating Coordinate Prediction Bias from Positional Encoding Failures
Created by
Haebom
Category
Empty
μ μ
Xingjian Tao, Yiwei Wang, Yujun Cai, Yihong Luo, Kai Han, Jing Tang
π‘ κ°μ
κ³ ν΄μλ μ΄λ―Έμ§ μ λ ₯ μ μκ°μ μμΉ μΈμ½λ©(VPE)μ μ νλ‘ μΈν΄ λ©ν°λͺ¨λ¬ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(MLLM)μ μ νν μ’ν μμΈ‘μ΄ μ΄λ €μ΄ λ¬Έμ λ₯Ό λ€λ£Ήλλ€. λ³Έ λ Όλ¬Έμ μ΄λ¬ν μΈμ½λ© μ€ν¨κ° 무μμ λ Έμ΄μ¦κ° μλ μμΈ‘ κ°λ₯νκ³ λ°©ν₯μ± μλ νΈν₯μ μ λ°νλ©°, λͺ¨λΈμ΄ λ΄λΆ 곡κ°μ μ¬μ μ§μμ μμ‘΄ν¨μ 보μ¬μ€λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ λ³Έ λ Όλ¬Έμ λ³λμ μ¬νμ΅ μμ΄ μΆλ‘ μμ μ μκ°μ μμΉ μΈμ½λ©μ μμ΄ μμΉμ ꡬμ λ°μ§ μλ κ²½ν₯μ±μ λΆλ¦¬νκ³ , μ΄λ₯Ό μ΄μ©νμ¬ κ²½λ μ ν μν κΈ°κ³λ‘ μ«μ λμ½λ©μ μ λνλ Vision-PE Shuffle Guidance (VPSG)λ₯Ό μ μν©λλ€.
π μμ¬μ λ° νκ³
β’
κ³ ν΄μλ μ΄λ―Έμ§ μ λ ₯μμ λ°μνλ VPE μ νκ° μ’ν μμΈ‘μ μ£Όμ μμΈμμ κ·λͺ νκ³ , μ΄κ²μ΄ λ¨μν λ Έμ΄μ¦κ° μλ νΉμ λ°©ν₯μΌλ‘μ νΈν₯μ μ λ°ν¨μ λ°νμ΅λλ€.
β’
λ³λμ μ¬νμ΅ μμ΄ μΆλ‘ μμ μ μ μ© κ°λ₯ν VPSG λ°©λ²λ‘ μ ν΅ν΄ μ’ν μμΈ‘ μ νλλ₯Ό ν¨κ³Όμ μΌλ‘ κ°μ ν μ μμμ μ μ¦νμ΅λλ€.
β’
μ μλ VPSGλ λ€μν λͺ¨λΈ κ·λͺ¨μμ μΌκ΄λ μ±λ₯ ν₯μμ 보μ¬μ£Όλ―λ‘, κΈ°μ‘΄ MLLMμ μ’ν μμΈ‘ λ₯λ ₯ ν₯μμ κΈ°μ¬ν μ μμ΅λλ€.
β’
VPSGκ° λͺ¨λ μ’ λ₯μ VPE μ€ν¨λ λͺ¨λ λ©ν°λͺ¨λ¬ λͺ¨λΈμ λν΄ λμΌνκ² ν¨κ³Όμ μΌμ§λ μΆκ°μ μΈ κ²μ¦μ΄ νμνλ©°, μ ν μν κΈ°κ³μ μ€κ³κ° μ±λ₯μ λ―ΈμΉλ μν₯μ λν μ¬μΈ΅μ μΈ λΆμμ΄ μꡬλ©λλ€.
PDF 보기
Made with Slashpage