Sign In

Mitigating Coordinate Prediction Bias from Positional Encoding Failures

Created by
  • Haebom
Category
Empty

μ €μž

Xingjian Tao, Yiwei Wang, Yujun Cai, Yihong Luo, Kai Han, Jing Tang

πŸ’‘ κ°œμš”

고해상도 이미지 μž…λ ₯ μ‹œ μ‹œκ°μ  μœ„μΉ˜ 인코딩(VPE)의 μ €ν•˜λ‘œ 인해 λ©€ν‹°λͺ¨λ‹¬ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(MLLM)의 μ •ν™•ν•œ μ’Œν‘œ 예츑이 μ–΄λ €μš΄ 문제λ₯Ό λ‹€λ£Ήλ‹ˆλ‹€. λ³Έ 논문은 μ΄λŸ¬ν•œ 인코딩 μ‹€νŒ¨κ°€ λ¬΄μž‘μœ„ λ…Έμ΄μ¦ˆκ°€ μ•„λ‹Œ 예츑 κ°€λŠ₯ν•˜κ³  λ°©ν–₯μ„± μžˆλŠ” 편ν–₯을 μœ λ°œν•˜λ©°, λͺ¨λΈμ΄ λ‚΄λΆ€ 곡간적 사전 지식에 μ˜μ‘΄ν•¨μ„ λ³΄μ—¬μ€λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ λ³Έ 논문은 λ³„λ„μ˜ μž¬ν•™μŠ΅ 없이 μΆ”λ‘  μ‹œμ μ— μ‹œκ°μ  μœ„μΉ˜ 인코딩을 μ„žμ–΄ μœ„μΉ˜μ— ꡬ애받지 μ•ŠλŠ” κ²½ν–₯성을 λΆ„λ¦¬ν•˜κ³ , 이λ₯Ό μ΄μš©ν•˜μ—¬ κ²½λŸ‰ μœ ν•œ μƒνƒœ κΈ°κ³„λ‘œ 숫자 디코딩을 μœ λ„ν•˜λŠ” Vision-PE Shuffle Guidance (VPSG)λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
고해상도 이미지 μž…λ ₯μ—μ„œ λ°œμƒν•˜λŠ” VPE μ €ν•˜κ°€ μ’Œν‘œ 예츑의 μ£Όμš” μ›μΈμž„μ„ 규λͺ…ν•˜κ³ , 이것이 λ‹¨μˆœν•œ λ…Έμ΄μ¦ˆκ°€ μ•„λ‹Œ νŠΉμ • λ°©ν–₯으둜의 편ν–₯을 μœ λ°œν•¨μ„ λ°ν˜”μŠ΅λ‹ˆλ‹€.
β€’
λ³„λ„μ˜ μž¬ν•™μŠ΅ 없이 μΆ”λ‘  μ‹œμ μ— 적용 κ°€λŠ₯ν•œ VPSG 방법둠을 톡해 μ’Œν‘œ 예츑 정확도λ₯Ό 효과적으둜 κ°œμ„ ν•  수 μžˆμŒμ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ VPSGλŠ” λ‹€μ–‘ν•œ λͺ¨λΈ 규λͺ¨μ—μ„œ μΌκ΄€λœ μ„±λŠ₯ ν–₯상을 λ³΄μ—¬μ£Όλ―€λ‘œ, κΈ°μ‘΄ MLLM의 μ’Œν‘œ 예츑 λŠ₯λ ₯ ν–₯상에 κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
VPSGκ°€ λͺ¨λ“  μ’…λ₯˜μ˜ VPE μ‹€νŒ¨λ‚˜ λͺ¨λ“  λ©€ν‹°λͺ¨λ‹¬ λͺ¨λΈμ— λŒ€ν•΄ λ™μΌν•˜κ²Œ νš¨κ³Όμ μΌμ§€λŠ” 좔가적인 검증이 ν•„μš”ν•˜λ©°, μœ ν•œ μƒνƒœ κΈ°κ³„μ˜ 섀계가 μ„±λŠ₯에 λ―ΈμΉ˜λŠ” 영ν–₯에 λŒ€ν•œ 심측적인 뢄석이 μš”κ΅¬λ©λ‹ˆλ‹€.
πŸ‘