본 논문은 텍스트 기반 이미지 편집을 위한 새로운 프레임워크를 제안합니다. 기존의 확산 모델이나 정류 흐름 기반 방법들은 이미지의 역변환 과정에서 오류가 발생하여 의도치 않은 수정이나 충실도 저하를 야기할 수 있습니다. 본 논문에서 제안하는 방법은 Visual AutoRegressive (VAR) 모델을 기반으로 하여 명시적인 역변환 과정을 제거하고, 캐싱 메커니즘과 적응적 미세 입자 마스크 전략을 통해 정확하고 제어된 수정을 가능하게 합니다. 토큰 재조립 접근 방식을 통해 편집 과정을 더욱 개선하여 다양성, 충실도 및 제어 기능을 향상시키며, 학습이 필요 없고 1K 해상도 이미지를 1.2초 만에 처리하는 빠른 추론 속도를 제공합니다. 실험 결과, 기존 방법들과 비교하여 양적 지표와 시각적 품질 모두에서 동등하거나 우수한 성능을 달성함을 보여줍니다. 코드 공개 예정입니다.