Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning

Created by
  • Haebom

저자

Xianwei Zhuang, Yuxin Xie, Yufan Deng, Dongchao Yang, Liming Liang, Jinghan Ru, Yuguo Yin, Yuexian Zou

개요

VARGPT-v1.1은 이전 버전인 VARGPT를 기반으로 한 고급 통합 시각적 자기회귀 모델입니다. 시각적 이해를 위한 다음 토큰 예측과 이미지 합성을 위한 다음 스케일 생성이라는 이중 패러다임을 유지합니다. VARGPT-v1.1은 반복적인 시각적 지시 조정과 직접 선호도 최적화(DPO)를 통한 강화 학습을 결합한 새로운 훈련 전략, 830만 쌍의 시각적 생성 지시 사항을 포함하는 확장된 훈련 말뭉치, Qwen2를 사용한 업그레이드된 언어 모델 백본, 향상된 이미지 생성 해상도, 그리고 아키텍처 수정 없이 등장하는 이미지 편집 기능을 통합합니다. 이러한 발전을 통해 VARGPT-v1.1은 다중 모드 이해와 텍스트-이미지 지시 사항 따르기 작업에서 최첨단 성능을 달성하며 이해 및 생성 측정항목 모두에서 상당한 개선을 보여줍니다. 특히 시각적 지시 조정을 통해 모델은 이전 버전과의 아키텍처 일관성을 유지하면서 이미지 편집 기능을 획득하여 통합된 시각적 이해, 생성 및 편집의 잠재력을 보여줍니다. 잘 설계된 통합 시각적 자기회귀 모델은 대규모 언어 모델(LLM)의 유연한 훈련 전략을 효과적으로 채택하여 유망한 확장성을 보여줄 수 있음을 시사합니다. 코드베이스와 모델 가중치는 https://github.com/VARGPT-family/VARGPT-v1.1 에서 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
반복적 시각적 지시 조정 및 DPO 기반 강화 학습을 통한 효과적인 훈련 전략 제시.
대규모 시각-생성 지시 쌍 데이터셋을 활용한 성능 향상.
아키텍처 변경 없이 이미지 편집 기능 등장.
통합된 시각적 이해, 생성 및 편집 기능 구현 가능성 제시.
LLM의 훈련 전략을 효과적으로 채택하여 확장성을 확보.
최첨단 성능 달성.
코드 및 모델 가중치 공개.
한계점:
본 논문에서는 명시적으로 한계점을 언급하지 않음. 추가적인 연구를 통해 실제 세계 적용 가능성 및 확장성의 제약 등을 탐구할 필요가 있음.
👍