본 논문은 텍스트 설명으로부터 고품질 고유 이미지(intrinsic image)를 생성하는 새로운 방법인 IntrinsiX를 제안합니다. 기존의 텍스트-이미지 모델들이 장면 조명이 포함된 출력을 생성하는 것과 달리, IntrinsiX는 물리 기반 렌더링(PBR) 맵을 예측합니다. 이를 통해 재조명, 편집 및 텍스처 생성 작업을 용이하게 하는 핵심 그래픽 응용 프로그램의 콘텐츠 생성 시나리오에 생성된 출력을 사용할 수 있습니다. IntrinsiX는 강력한 이미지 사전 정보를 활용하고 각 PBR 재질 구성 요소(반사율, 거칠기, 금속성, 노말)에 대해 별도의 모델을 사전 훈련합니다. 그리고 일관된 방식으로 키와 값 특징을 연결하는 새로운 교차 고유 어텐션 공식을 사용하여 이러한 모델들을 정렬합니다. 이를 통해 각 출력 모드 간에 정보를 교환하고 의미적으로 일관된 PBR 예측을 얻을 수 있습니다. 각 고유 구성 요소를 기반으로 하기 위해, 모델을 제약하는 이미지 공간 신호를 제공하는 렌더링 손실을 제안하여 출력 BRDF 속성에서도 선명한 디테일을 용이하게 합니다. 실험 결과는 기존의 고유 이미지 분해 방법보다 훨씬 우수한 세부적인 고유 이미지 생성과 강력한 일반화 능력을 보여줍니다. 마지막으로, 재조명, 편집 및 텍스트 조건부 방 크기 PBR 텍스처 생성을 포함한 일련의 응용 프로그램을 보여줍니다.