VARGPT-v1.1은 이전 버전인 VARGPT를 기반으로 한 고급 통합 시각적 자기회귀 모델입니다. 시각적 이해를 위한 다음 토큰 예측과 이미지 합성을 위한 다음 스케일 생성이라는 이중 패러다임을 유지합니다. VARGPT-v1.1은 반복적인 시각적 지시 조정과 직접 선호도 최적화(DPO)를 통한 강화 학습을 결합한 새로운 훈련 전략, 830만 쌍의 시각적 생성 지시 사항을 포함하는 확장된 훈련 말뭉치, Qwen2를 사용한 업그레이드된 언어 모델 백본, 향상된 이미지 생성 해상도, 그리고 아키텍처 수정 없이 등장하는 이미지 편집 기능을 통합합니다. 이러한 발전을 통해 VARGPT-v1.1은 다중 모드 이해와 텍스트-이미지 지시 사항 따르기 작업에서 최첨단 성능을 달성하며 이해 및 생성 측정항목 모두에서 상당한 개선을 보여줍니다. 특히 시각적 지시 조정을 통해 모델은 이전 버전과의 아키텍처 일관성을 유지하면서 이미지 편집 기능을 획득하여 통합된 시각적 이해, 생성 및 편집의 잠재력을 보여줍니다. 잘 설계된 통합 시각적 자기회귀 모델은 대규모 언어 모델(LLM)의 유연한 훈련 전략을 효과적으로 채택하여 유망한 확장성을 보여줄 수 있음을 시사합니다. 코드베이스와 모델 가중치는 https://github.com/VARGPT-family/VARGPT-v1.1 에서 공개적으로 이용 가능합니다.