본 논문은 멀티모달 거대 언어 모델(MLLM)이 OCR 작업에서 겪는 낮은 성능 문제를 해결하기 위해, 멀티-레이어 특징 융합 과정에서 발생하는 경사(gradient) 간섭 문제를 지적합니다. 이를 해결하기 위해, 순방향 전파에서는 얕은 특징을 재활용하지만 역방향 전파 시에는 경사 전달을 차단하는 'Detached Skip-Links'를 제안하며, 이는 학습 안정성 및 수렴 속도를 향상시킵니다. 또한, 시각 토큰의 픽셀 수준 재구성 가능성을 측정하는 '$R$-Probe'를 도입하여 미세한 시각 정보 보존 여부를 진단합니다.