Detached Skip-Links and $R$-Probe: Decoupling Feature Aggregation from Gradient Propagation for MLLM OCR

Author

Haebom

저자

Ziye Yuan, Ruchang Yao, Chengxin Zheng, Yusheng Zhao, Daxiang Dong, Ming Zhang

💡 개요

본 논문은 멀티모달 거대 언어 모델(MLLM)이 OCR 작업에서 겪는 낮은 성능 문제를 해결하기 위해, 멀티-레이어 특징 융합 과정에서 발생하는 경사(gradient) 간섭 문제를 지적합니다. 이를 해결하기 위해, 순방향 전파에서는 얕은 특징을 재활용하지만 역방향 전파 시에는 경사 전달을 차단하는 'Detached Skip-Links'를 제안하며, 이는 학습 안정성 및 수렴 속도를 향상시킵니다. 또한, 시각 토큰의 픽셀 수준 재구성 가능성을 측정하는 '$R$-Probe'를 도입하여 미세한 시각 정보 보존 여부를 진단합니다.

🔑 시사점 및 한계

•

MLLM에서 OCR 성능 저하의 주원인 중 하나가 멀티-레이어 특징 융합 시 발생하는 경사 간섭임을 규명하고, 이를 효과적으로 제어하는 'Detached Skip-Links'라는 경량화된 기법을 제시했습니다.

•

'$R$-Probe'라는 새로운 진단 도구를 통해 MLLM이 미세 시각 정보를 얼마나 잘 활용하는지 객관적으로 평가할 수 있는 방법을 제공합니다.

•

다양한 ViT 백본 및 멀티모달 벤치마크에서 일관된 성능 향상을 보여, 제안된 방법론의 유효성을 입증했습니다.

•

현재 방법론은 주로 OCR 관련 벤치마크에 초점을 맞추고 있으며, 더 복잡하고 다양한 멀티모달 작업에서의 일반화 성능 향상 가능성에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage