# Mitigating Coordinate Prediction Bias from Positional Encoding Failures

### 저자

Xingjian Tao, Yiwei Wang, Yujun Cai, Yihong Luo, Kai Han, Jing Tang

### 💡 개요

고해상도 이미지 입력 시 시각적 위치 인코딩(VPE)의 저하로 인해 멀티모달 대규모 언어 모델(MLLM)의 정확한 좌표 예측이 어려운 문제를 다룹니다. 본 논문은 이러한 인코딩 실패가 무작위 노이즈가 아닌 예측 가능하고 방향성 있는 편향을 유발하며, 모델이 내부 공간적 사전 지식에 의존함을 보여줍니다. 이를 해결하기 위해 본 논문은 별도의 재학습 없이 추론 시점에 시각적 위치 인코딩을 섞어 위치에 구애받지 않는 경향성을 분리하고, 이를 이용하여 경량 유한 상태 기계로 숫자 디코딩을 유도하는 Vision-PE Shuffle Guidance (VPSG)를 제안합니다.

### 🔑 시사점 및 한계

- 고해상도 이미지 입력에서 발생하는 VPE 저하가 좌표 예측의 주요 원인임을 규명하고, 이것이 단순한 노이즈가 아닌 특정 방향으로의 편향을 유발함을 밝혔습니다.

- 별도의 재학습 없이 추론 시점에 적용 가능한 VPSG 방법론을 통해 좌표 예측 정확도를 효과적으로 개선할 수 있음을 입증했습니다.

- 제안된 VPSG는 다양한 모델 규모에서 일관된 성능 향상을 보여주므로, 기존 MLLM의 좌표 예측 능력 향상에 기여할 수 있습니다.

- VPSG가 모든 종류의 VPE 실패나 모든 멀티모달 모델에 대해 동일하게 효과적일지는 추가적인 검증이 필요하며, 유한 상태 기계의 설계가 성능에 미치는 영향에 대한 심층적인 분석이 요구됩니다.

---

[PDF 보기](https://arxiv.org/pdf/2510.22102)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).