# FashionM3: Multimodal, Multitask, and Multiround Fashion Assistant based on Unified Vision-Language Model

### 저자

Kaicheng Pang, Xingxing Zou, Waikeung Wong

### 개요

본 논문은 패션 산업의 경제적 가치에 크게 기여하는 패션 스타일링 및 개인 맞춤형 추천에 초점을 맞추고 있습니다.  비전-언어 모델(VLM)의 발전으로 자연어 및 시각적 상호작용을 통한 소매업 개선의 새로운 기회가 생겨났습니다.  이 연구는 패션 특화 작업을 위해 미세 조정된 VLM을 기반으로 하는 다중 모드, 다중 작업, 다중 라운드 패션 어시스턴트인 FashionM3을 제안합니다. FashionM3은 개인 맞춤형 추천, 대안 제안, 제품 이미지 생성 및 가상 시착 시뮬레이션을 포함한 여러 기능을 제공하여 사용자가 만족스러운 의상을 발견하도록 돕습니다. 기본, 개인화, 대안 추천 작업에 걸쳐 331,124개의 다중 모드 대화 샘플로 구성된 새로운 FashionRec 데이터셋으로 미세 조정된 FashionM3은 다중 라운드 상호 작용을 통해 상황에 맞는 개인화된 제안을 반복적으로 개선합니다. 정량적 및 정성적 평가와 사용자 연구는 FashionM3의 추천 효과 및 패션 어시스턴트로서의 실용적 가치에서 우수한 성능을 보여줍니다.

### 시사점, 한계점

- **시사점:**

    - VLM을 활용한 다중 모드 패션 어시스턴트의 가능성을 제시.

    - 개인 맞춤형 패션 추천 시스템의 효율성과 사용자 경험 향상.

    - 다중 라운드 상호작용을 통한 정교한 추천 시스템 구현.

    - FashionRec 데이터셋 공개를 통한 후속 연구 지원.

- **한계점:**

    - FashionRec 데이터셋의 규모 및 다양성에 대한 추가적인 검토 필요.

    - 실제 상용화를 위한 확장성 및 안정성에 대한 추가적인 연구 필요.

    - 특정 문화권에 편향된 데이터셋 사용 가능성 및 그에 따른 편향 문제 고려 필요.

    - 가상 시착 시뮬레이션의 정확도 및 현실감 개선 필요.

[PDF 보기](https://arxiv.org/pdf/2504.17826)

![https://i.imgur.com/Ivk7J9x.jpeg](https://i.imgur.com/Ivk7J9x.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).