Latent Action Control for Reasoning-Guided Unified Image Generation

작성자

Haebom

카테고리

Empty

저자

Fuxiang Zhai, Sixiang Chen, Yingjin Li, Shuaibo Li, Jianyu Lai, Tengjun Huang, Lei Zhu

💡 개요

본 논문은 기존 통합 멀티모달 모델이 시각적 이해를 이미지 생성으로 효과적으로 연결하지 못하는 문제를 해결하기 위해, 추론을 연속적인 잠재 행동(latent actions)으로 표현하는 Latent Action Control(LAC) 방법을 제안합니다. LAC는 계획, 내부 시각 초안 작성, 진단, 개선을 위한 역할을 구조화한 잠재 궤적을 생성하고, 이를 별도의 추론 토큰이나 중간 이미지 없이 통합 생성기의 은닉 스트림에 주입합니다. 이를 통해 추론된 관계, 속성 바인딩, 세계 지식 등으로부터 생성 과정으로의 제어 경로를 제공합니다.

🔑 시사점 및 한계

•

이해를 행동으로 전환하는 새로운 제어 메커니즘: 추론 과정을 직접적인 생성 제어로 연결함으로써, 모델이 단순히 정보를 이해하는 것을 넘어 이를 실제 이미지 생성에 반영할 수 있게 하는 중요한 진전을 이루었습니다.

•

작고 효율적인 제어 신호: 별도의 추론 토큰이나 중간 이미지를 생성하지 않고 잠재 공간에서의 행동 궤적을 학습함으로써, 제어 과정의 효율성을 높이고 모델의 복잡성을 줄였습니다.

•

제한된 훈련 데이터 및 일반화 능력: 학습된 잠재 행동 궤적이 모델 생성기에 의해 소비됨을 보여주지만, 이러한 잠재 행동의 학습 및 일반화 능력은 훈련 데이터의 품질 및 다양성에 의존할 수 있으며, 복잡하거나 새롭고 예측 불가능한 상황에서의 성능은 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage