본 논문은 다중 모달 대규모 언어 모델(MLLM)의 성능 향상을 위한 새로운 시각적 프롬프팅 메커니즘인 \SysName을 제시합니다. MLLM은 이미지 캡션 생성이나 대화형 질의응답과 같은 작업에서 뛰어난 성능을 보이지만, 정확한 객체 인식 및 세부 시각 정보를 요구하는 작업에서는 어려움을 겪습니다. 토큰 제한으로 인해 중요한 정보가 누락되는 문제도 있습니다. \SysName은 프롬프트 인식 전략, 공간 보존 오케스트레이션 스키마, 예산 인식 프롬프팅 방법의 세 가지 혁신적인 기능을 통해 중요한 시각적 정보를 유지하면서 MLLM의 성능을 향상시킵니다. 여러 데이터셋에 대한 종합적인 평가 결과, \SysName은 기존 방법보다 최대 26.9% 향상된 정확도를 달성하면서 토큰 소모량을 크게 줄였습니다.