LIGER는 장기간 지속되는 작업에 대한 시각적 지시사항 생성을 위한 새로운 프레임워크입니다. 기존의 텍스트-이미지 모델을 이용한 단순 이미지 생성 방식의 단점인 이미지 불일치 및 객체 누락, 속성 오류 문제를 해결하기 위해, LIGER는 이전 단계의 시각적 기억과 역사적 프롬프트를 활용하여 단계별 이미지 초안을 생성합니다. 또한, 다양한 이미지 편집 도구를 사용하여 속성 오류, 논리 오류, 객체 중복 및 일관성 부족 등을 수정하는 자기 반성 메커니즘을 통해 이미지의 논리적 정확성과 객체 속성 정확성을 향상시킵니다. 새롭게 제작된 장기간 작업 벤치마크를 통해 LIGER가 생성한 시각적 지시사항이 기존 방법보다 더 포괄적임을 실험적으로 증명하였습니다.