본 논문은 비전 트랜스포머(ViT)와 공간 생성적 적대 신경망(SGAN)을 결합한 새로운 하이브리드 모델인 ViT-SGAN을 제안합니다. 기존의 타일링이나 패치 기반 방법들이 복잡한 질감 생성에 어려움을 겪는 것과 달리, ViT-SGAN은 평균-분산(mu, sigma) 및 텍스톤과 같은 특수한 질감 기술자를 ViT의 자기 주의 메커니즘에 통합하여 복잡한 공간적 의존성을 포착하고, 기존 최첨단 모델보다 우수한 품질의 질감을 생성합니다. FID, IS, SSIM, LPIPS와 같은 지표를 사용한 비교 실험을 통해 ViT-SGAN의 효율성과 다양하고 사실적인 질감 생성 능력을 입증합니다.