본 논문은 알파 합성된 이미지의 계층별 분해라는 새로운 과제를 제시합니다. 기존의 이미지 분해 방법들이 반투명 또는 투명 계층의 가림 현상을 해결하는 데 어려움을 겪는다는 점을 지적하며, 마스크 사전 종속성, 정적 객체 가정, 데이터 부족 등의 문제를 해결하기 위해 노력합니다. 이를 위해, 투명 및 반투명 계층 분해를 위한 대규모 고품질 데이터셋인 AlphaBlend를 처음으로 소개하고, 확산 트랜스포머 기반 프레임워크인 DiffDecompose를 제시합니다. DiffDecompose는 입력 이미지, 의미론적 프롬프트, 혼합 유형을 조건으로 가능한 계층 분해에 대한 사후 확률을 학습합니다. 알파 매트를 직접 회귀하는 대신, In-Context Decomposition을 수행하여 계층별 감독 없이 하나 이상의 계층을 예측하고, Layer Position Encoding Cloning을 도입하여 계층 간 픽셀 수준의 대응 관계를 유지합니다. 제안된 AlphaBlend 데이터셋과 공개 LOGO 데이터셋에 대한 광범위한 실험을 통해 DiffDecompose의 효과를 검증합니다.