Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

REGEN: A Dataset and Benchmarks with Natural Language Critiques and Narratives

Created by
  • Haebom

저자

Kun Su, Krishna Sayana, Hubert Pham, James Pine, Yuri Vasilevski, Raghavendra Vasudeva, Marialena Kyriakidi, Liam Hebert, Ambarish Jash, Anushya Subbiah, Sukhdeep Sodhi

개요

본 논문은 대화형 추천 시스템의 성능 평가를 위한 새로운 데이터셋 REGEN을 제시합니다. 기존의 순차적 아이템 예측에 초점을 맞춘 데이터셋의 한계를 극복하기 위해, Amazon 상품 리뷰 데이터셋을 확장하여 두 가지 주요 자연어 특징을 추가했습니다. 첫째, 사용자의 후속 아이템 선택으로 이어지는 "조종" 질문을 나타내는 사용자 비평(critiques)을 추가하고, 둘째, 이전 문맥을 고려하여 각 추천 아이템과 연관된 풍부한 텍스트 출력인 서술(narratives)을 추가했습니다. 서술에는 상품 추천, 구매 설명, 사용자 선호도 요약 등이 포함됩니다. 또한, 사용자 이력(아이템 및 비평)을 조건으로 추천과 해당 서술을 모두 생성하는 대화형 추천 작업을 위한 종단 간 모델링 벤치마크를 설정하고, 비평, 검색 및 생성을 위한 백본으로 LLM을 사용하는 LUMEN(LLM-based Unified Multi-task Model with Critiques, Recommendations, and Narratives)이라는 모델링 프레임워크를 제시합니다. 자동 평가 기법을 사용하여 데이터셋의 품질을 평가하고, 기존 및 LLM 기반 추천 모델을 훈련하여 벤치마크를 수행했습니다. 실험 결과, 비평을 통합하면 추천 품질이 향상되고, REGEN 데이터셋으로 훈련된 LLM은 최첨단 추천 시스템 및 언어 모델과 비교할 만한 성능으로 추천과 문맥 서술을 효과적으로 생성함을 보여줍니다.

시사점, 한계점

시사점:
대화형 추천 시스템 성능 평가를 위한 새로운 데이터셋 REGEN을 제공합니다.
사용자 비평과 서술을 포함하여 대화형 추천의 맥락을 풍부하게 합니다.
LLM 기반의 대화형 추천 모델 LUMEN을 제시하고 그 효과를 검증합니다.
사용자 비평이 추천 품질 향상에 기여함을 보여줍니다.
LLM이 추천과 문맥 서술 생성에 효과적임을 입증합니다.
한계점:
데이터셋 REGEN의 규모와 다양성에 대한 추가적인 분석이 필요할 수 있습니다.
LUMEN 모델의 일반화 성능 및 다양한 상황에 대한 적용 가능성에 대한 추가 연구가 필요합니다.
특정 도메인(Amazon 상품 리뷰)에 국한된 데이터셋으로, 다른 도메인으로의 일반화 가능성에 대한 검증이 필요합니다.
자동 평가 기법의 한계로 인해, 주관적인 평가를 통한 추가적인 검증이 필요할 수 있습니다.
👍