본 논문은 반투명 또는 투명 레이어의 중첩으로 인한 기존 이미지 분해 방법의 어려움을 해결하기 위해, 알파 합성 이미지의 계층별 분해라는 새로운 과제를 제시합니다. 마스크 사전 의존성, 정적 객체 가정, 데이터 부족 등의 문제를 해결하기 위해, 대규모 고품질 투명 및 반투명 레이어 분해 데이터셋인 AlphaBlend를 처음으로 소개합니다. AlphaBlend는 6가지 실제 세계 하위 작업(예: 반투명 플레어 제거, 반투명 세포 분해, 유리 제품 분해)을 지원합니다. 이 데이터셋을 기반으로, 입력 이미지, 의미론적 프롬프트 및 혼합 유형을 조건으로 가능한 레이어 분해에 대한 사후 확률을 학습하는 확산 트랜스포머 기반 프레임워크인 DiffDecompose를 제시합니다. DiffDecompose는 알파 매트를 직접 회귀하는 대신 In-Context Decomposition을 수행하여 레이어별 감독 없이 하나 이상의 레이어를 예측하고, 레이어 위치 인코딩 복제를 도입하여 레이어 간 픽셀 수준 대응을 유지합니다. 제안된 AlphaBlend 데이터셋과 공개 LOGO 데이터셋에 대한 광범위한 실험을 통해 DiffDecompose의 효과를 검증합니다. 코드와 데이터셋은 논문 채택 후 공개될 예정입니다.