A Training-Free, Task-Agnostic Framework for Enhancing MLLM Performance on High-Resolution Images
Created by
Haebom
저자
Jaeseong Lee, Yeeun Choi, Heechan Choi, Hanjung Kim, Seonjoo Kim
개요
본 논문은 고해상도 이미지에서 정밀한 위치 파악 및 추론을 요구하는 작업에서 어려움을 겪는 다중 모달 대규모 언어 모델(MLLM)의 한계를 해결하기 위해, 새로운 훈련이 필요 없는 작업 독립적인 두 단계 프레임워크인 Extract Candidate then Predict (ECP)를 제안합니다. ECP는 MLLM이 고해상도 이미지 처리에 어려움을 겪지만, 저해상도 이미지에 대한 예측에는 암시적인 위치 정보가 포함되어 있다는 점에 착안하여, 우선 저해상도 이미지 예측을 기반으로 후보 영역을 식별하고, 이 후보 영역을 바탕으로 최종 결과를 예측하는 방식으로 고해상도 이미지의 세부 정보를 유지하면서 성능 저하를 방지합니다. 4K GUI grounding 및 4K, 8K MLLM perception 작업에서 기존 방식 대비 각각 +21.3%, +5.8%, +5.2%의 성능 향상을 달성하여 효과를 입증했습니다. 코드는 https://github.com/yenncye/ECP 에서 확인할 수 있습니다.