본 논문은 대규모 모델의 계산 비용을 줄이기 위한 매개변수 효율적인 미세 조정(PEFT) 방법 중 하나인 시각 프롬프트 조정(VPT)의 한계점을 분석하고, 이를 개선한 새로운 방법인 Cross Visual Prompt Tuning (CVPT)을 제안합니다. VPT는 프롬프트 배치 전략으로 인해 모델의 자기 주의 메커니즘을 왜곡하는 문제점이 있는데, CVPT는 프롬프트와 이미지 토큰 간의 상호 작용을 직접 모델링하는 크로스 어텐션 모듈을 도입하여 이 문제를 해결합니다. 크로스 어텐션 모듈은 프롬프트를 입력 시퀀스로부터 분리하여 자기 주의 메커니즘의 무결성을 유지하면서 효율적인 특징 통합을 가능하게 합니다. 또한, 가중치 공유 메커니즘을 사용하여 매개변수 오버헤드 없이 표현력을 향상시킵니다. 25개의 데이터셋에 대한 실험 결과, CVPT는 VPT를 상당히 능가하며, VTAB-1K 벤치마크에서 4% 이상 높은 평균 정확도를 달성하여 성능과 효율성 면에서 최첨단 어댑터 기반 방법들과 경쟁하는 수준임을 보여줍니다.