Bi-Level Prompt Optimization for Multimodal LLM-as-a-Judge

Created by

Haebom

저자

Bo Pan, Xuan Kan, Kaitai Zhang, Yan Yan, Shunwen Tan, Zihao He, Zixin Ding, Junjie Wu, Liang Zhao

💡 개요

이 논문은 멀티모달 LLM을 이미지 평가의 자동 판사로 활용할 때 발생하는 인간 판단과의 정렬 문제를 해결하기 위한 프롬프트 최적화 방법을 제안합니다. 제한된 컨텍스트 창으로 인해 멀티모달 모델이 많은 시각적 예제를 처리하기 어렵다는 병목 현상을 극복하기 위해, 이미지의 핵심 시각 정보를 텍스트로 변환하는 동시에 평가 관련 단서를 유지하는 Bi-Level Prompt Optimization (BLPO) 프레임워크를 개발했습니다. BLPO는 판사 프롬프트와 이미지-텍스트 변환 프롬프트를 공동으로 최적화하여 제한된 컨텍스트 예산 내에서 평가 충실도를 유지합니다.

🔑 시사점 및 한계

•

멀티모달 LLM을 자동 판사로 사용할 때 발생하는 컨텍스트 창 제약 문제를 극복하고, 평가 관련 시각 정보를 효과적으로 텍스트로 변환하는 새로운 접근 방식을 제시했습니다.

•

이미지-텍스트 변환과 판사 프롬프트 최적화를 동시에 진행하는 프레임워크를 통해 제한된 자원 하에서 높은 평가 성능을 달성할 수 있음을 입증했습니다.

•

제안된 방법론의 효과성을 네 개의 데이터셋과 세 개의 LLM 판사를 대상으로 검증했지만, 더 다양한 멀티모달 평가 작업과 LLM 아키텍처에 대한 일반화 가능성을 추가적으로 탐구할 필요가 있습니다.

PDF 보기

Made with Slashpage