Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Future of MLLM Prompting is Adaptive: A Comprehensive Experimental Evaluation of Prompt Engineering Methods for Robust Multimodal Performance

Created by
  • Haebom

저자

Anwesha Mohanty, Venkatesh Balavadhani Parthasarathy, Arsalan Shahid

개요

본 논문은 텍스트, 이미지, 코드 등 다양한 모달리티를 통합하는 다중 모달 대규모 언어 모델(MLLM)의 프롬프트 엔지니어링 기법을 실험적으로 평가한 연구입니다. 13개의 오픈소스 MLLM을 대상으로 추론 및 구성성, 다중 모달 이해 및 정합, 복잡한 코드 생성 및 실행, 지식 검색 및 통합 등 24가지 과제에 걸쳐 Zero-Shot, One-Shot, Few-Shot, Chain-of-Thought, Analogical, Generated Knowledge, Tree-of-Thought 등 7가지 프롬프트 엔지니어링 방법을 적용하여 비교 분석했습니다. 모델의 크기는 매개변수 수에 따라 Small(<4B), Medium(4B-10B), Large(>10B)로 분류하였습니다. 결과적으로, Large MLLM은 코드 생성과 같은 구조화된 작업에서 높은 정확도(최대 96.88%)를 달성했지만, 모든 모델은 복잡한 추론 및 추상적 이해에 어려움을 보였으며, 높은 환각 비율을 나타냈습니다. 구조화된 추론 프롬프트는 소형 모델에서 환각률을 최대 75%까지 증가시켰고, 대형 모델에서는 응답 시간을 20초 이상으로 늘렸습니다. 단일 프롬프트 방법이 모든 작업 유형에 대해 최적화되는 것은 아니며, 강건성, 효율성 및 사실 정확도를 높이기 위해서는 예제 기반 안내와 선택적 구조화된 추론을 결합한 적응형 전략이 필수적임을 제시합니다. 본 연구 결과는 AI 지원 코딩, 지식 검색 및 다중 모달 콘텐츠 이해 등 다양한 응용 분야에서 MLLM의 신뢰할 수 있는 배포를 위한 프롬프트 엔지니어링에 대한 실용적인 권장 사항을 제공합니다.

시사점, 한계점

시사점:
다양한 프롬프트 엔지니어링 기법의 효과를 다양한 MLLM과 작업 유형에 대해 종합적으로 비교 분석하여 실용적인 지침을 제공합니다.
Large MLLM이 구조화된 작업에 강점을 보이지만, 복잡한 추론 및 추상적 이해에는 여전히 어려움이 있음을 밝혔습니다.
구조화된 추론 프롬프트가 환각률과 응답 시간을 증가시킬 수 있음을 보여주어 프롬프트 엔지니어링의 중요성을 강조합니다.
예제 기반 안내와 선택적 구조화된 추론을 결합한 적응형 전략의 필요성을 제시합니다.
AI 지원 코딩, 지식 검색, 다중 모달 콘텐츠 이해 등 다양한 응용 분야에 대한 실질적인 프롬프트 엔지니어링 전략을 제시합니다.
한계점:
평가에 사용된 MLLM과 작업 유형의 범위가 제한적일 수 있습니다.
특정 프롬프트 엔지니어링 기법의 최적화를 위한 보다 정교한 연구가 필요합니다.
환각 현상에 대한 더 깊이 있는 분석과 해결 방안 모색이 필요합니다.
모델 크기 외 다른 요인(예: 학습 데이터, 아키텍처)의 영향에 대한 추가 연구가 필요합니다.
👍