본 논문은 전자상거래와 가상 애플리케이션의 확산으로 인해 AI 기술을 활용한 패션 산업의 발전에 초점을 맞추고 있습니다. 특히, 텍스트, 의류 스케치, 자세 등 다양한 입력 방식을 활용하는 가상 피팅 및 다중 모드 패션 이미지 편집에 대한 연구가 중요해지고 있습니다. 기존의 가상 피팅 방법들은 특정 의류 입력에 의존하는 한계가 있으나, 본 논문에서는 사용자의 텍스트 기반 선호도를 바탕으로 패션 아이템을 맞춤화하는 새로운 방법인 Fashion Retrieval-Augmented Generation (Fashion-RAG)을 제시합니다. Fashion-RAG는 사용자의 텍스트 입력에 맞는 여러 의류를 검색하고, 검색된 아이템의 속성을 통합하여 개인화된 이미지를 생성합니다. 이는 검색된 의류 이미지를 Stable Diffusion 텍스트 인코더의 텍스트 임베딩 공간에 투영하는 텍스트 반전 기술을 활용하여 가능해집니다. Dress Code 데이터셋을 이용한 실험 결과, Fashion-RAG는 기존 방법보다 질적, 양적으로 우수한 성능을 보이며, 검색된 의류의 세부적인 시각적 디테일을 효과적으로 포착하는 것으로 나타났습니다. 본 연구는 다중 모드 패션 이미지 편집을 위해 특별히 고안된 검색 증강 생성 방식을 처음으로 제시한 연구입니다.