LaViC(Large Vision-Language Conversational Recommendation Framework)는 시각 정보가 중요한 패션, 인테리어 등의 분야에서 대화형 추천 시스템의 성능을 향상시키기 위해 제안된 새로운 접근 방식입니다. 대규모 비전-언어 모델을 활용하여 두 단계로 이루어진 과정을 통해 작은 크기의 시각 토큰으로 제품 이미지를 효율적으로 표현하고, 대화 맥락과 시각 정보를 통합하여 추천을 수행합니다. 첫 번째 단계인 시각 지식 자기 증류(visual knowledge self-distillation)는 수백 개의 토큰으로 이루어진 제품 이미지를 소수의 시각 토큰으로 압축하여 계산 비용을 줄이고, 두 번째 단계인 추천 프롬프트 튜닝(recommendation prompt tuning)은 대화 맥락과 증류된 시각 토큰을 통합하여 텍스트 및 시각적 특징을 포착합니다. 다양한 시각 중심 카테고리(패션, 뷰티, 홈 등)에 걸쳐 Reddit 대화와 Amazon 제품 목록을 정렬하여 새로운 데이터셋을 구축하고, 실험을 통해 기존 텍스트 기반 방법 및 오픈소스 비전-언어 기준 모델보다 LaViC의 성능이 우수함을 입증하였습니다. 또한, GPT-3.5-turbo, GPT-4o-mini, GPT-4o 등의 유명한 독점 기준 모델과 비교하여 경쟁력 있는 또는 우수한 정확도를 달성했습니다. 코드와 데이터셋은 GitHub에서 공개됩니다.