Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Modality-Balancing Preference Optimization of Large Multimodal Models by Adversarial Negative Mining

Created by
  • Haebom

저자

Chenxi Liu, Tianyi Xiong, Yanshuo Chen, Ruibo Chen, Yihan Wu, Junfeng Guo, Tianyi Zhou, Heng Huang

개요

본 논문은 대규모 멀티모달 모델(LMM)의 modality 불균형 문제를 해결하기 위한 새로운 선호도 학습 프레임워크인 Modality-Balancing Preference Optimization (MBPO)를 제안합니다. MBPO는 adversarial perturbation을 통해 생성된 hard negatives를 사용하여 보다 효과적인 오프라인 선호도 데이터셋을 구축하고, close-ended task를 활용하여 verified rewards로 온라인 응답을 생성합니다. 또한, Group Relative Policy Optimization (GRPO)를 활용하여 오프라인-온라인 hybrid 데이터를 통해 모델을 학습시킵니다. 실험 결과, MBPO는 LMM의 성능을 향상시키고 hallucination을 효과적으로 줄이는 것으로 나타났습니다.

시사점, 한계점

시사점:
LMM의 modality 불균형 문제 해결에 기여.
Adversarial perturbation을 활용한 hard negatives 생성으로 오프라인 선호도 데이터셋의 효과 증대.
온라인 데이터 생성 및 GRPO를 활용한 학습으로 모델의 적응력 향상.
Vision-language task에서 LMM 성능 향상 및 hallucination 감소 효과 입증.
한계점:
LLM backbone의 internal bias를 완화하는 방법에 대한 추가 연구 필요.
모든 유형의 LMM task에 대한 일반화 성능 평가 필요.
MBPO의 scalability 및 계산 효율성에 대한 추가 연구 필요.
👍