# LaViC: Adapting Large Vision-Language Models to Visually-Aware Conversational Recommendation

### 저자

Hyunsik Jeon, Satoshi Koide, Yu Wang, Zhankui He, Julian McAuley

### 개요

LaViC(Large Vision-Language Conversational Recommendation Framework)는 시각 정보가 중요한 패션, 인테리어 등의 분야에서 대화형 추천 시스템의 성능을 향상시키기 위해 제안된 새로운 접근 방식입니다.  대규모 비전-언어 모델을 활용하여 두 단계로 이루어진 과정을 통해 작은 크기의 시각 토큰으로 제품 이미지를 효율적으로 표현하고, 대화 맥락과 시각 정보를 통합하여 추천을 수행합니다. 첫 번째 단계인 시각 지식 자기 증류(visual knowledge self-distillation)는 수백 개의 토큰으로 이루어진 제품 이미지를 소수의 시각 토큰으로 압축하여 계산 비용을 줄이고, 두 번째 단계인 추천 프롬프트 튜닝(recommendation prompt tuning)은 대화 맥락과 증류된 시각 토큰을 통합하여 텍스트 및 시각적 특징을 포착합니다.  다양한 시각 중심 카테고리(패션, 뷰티, 홈 등)에 걸쳐 Reddit 대화와 Amazon 제품 목록을 정렬하여 새로운 데이터셋을 구축하고, 실험을 통해 기존 텍스트 기반 방법 및 오픈소스 비전-언어 기준 모델보다 LaViC의 성능이 우수함을 입증하였습니다.  또한, GPT-3.5-turbo, GPT-4o-mini, GPT-4o 등의 유명한 독점 기준 모델과 비교하여 경쟁력 있는 또는 우수한 정확도를 달성했습니다. 코드와 데이터셋은 GitHub에서 공개됩니다.

### 시사점, 한계점

- **시사점:**

    - 시각 정보가 중요한 분야에서 대화형 추천 시스템의 성능을 크게 향상시킬 수 있음을 보여줌.

    - 효율적인 시각 정보 처리를 위한 시각 지식 자기 증류 기법의 효과성을 입증.

    - 새로운 데이터셋을 제공하여 시각 중심 대화형 추천 시스템 연구에 기여.

    - 기존 최첨단 모델을 능가하는 성능을 달성.

- **한계점:**

    - 제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.

    - 다양한 시각적 특징을 효과적으로 포착하기 위한 더욱 정교한 시각적 표현 방법 연구 필요.

    - 특정 도메인에 편향된 데이터셋 사용으로 인한 일반화 성능 저하 가능성.

    - 다른 언어 또는 문화권에 대한 확장성 연구 필요.

[PDF 보기](https://arxiv.org/pdf/2503.23312)

![https://i.imgur.com/562mrVy.jpeg](https://i.imgur.com/562mrVy.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).