본 논문은 대화형 추천 시스템의 성능 평가를 위한 새로운 데이터셋 REGEN을 제시합니다. 기존의 순차적 아이템 예측에 초점을 맞춘 데이터셋의 한계를 극복하기 위해, Amazon 상품 리뷰 데이터셋을 확장하여 두 가지 주요 자연어 특징을 추가했습니다. 첫째, 사용자의 후속 아이템 선택으로 이어지는 "조종" 질문을 나타내는 사용자 비평(critiques)을 추가하고, 둘째, 이전 문맥을 고려하여 각 추천 아이템과 연관된 풍부한 텍스트 출력인 서술(narratives)을 추가했습니다. 서술에는 상품 추천, 구매 설명, 사용자 선호도 요약 등이 포함됩니다. 또한, 사용자 이력(아이템 및 비평)을 조건으로 추천과 해당 서술을 모두 생성하는 대화형 추천 작업을 위한 종단 간 모델링 벤치마크를 설정하고, 비평, 검색 및 생성을 위한 백본으로 LLM을 사용하는 LUMEN(LLM-based Unified Multi-task Model with Critiques, Recommendations, and Narratives)이라는 모델링 프레임워크를 제시합니다. 자동 평가 기법을 사용하여 데이터셋의 품질을 평가하고, 기존 및 LLM 기반 추천 모델을 훈련하여 벤치마크를 수행했습니다. 실험 결과, 비평을 통합하면 추천 품질이 향상되고, REGEN 데이터셋으로 훈련된 LLM은 최첨단 추천 시스템 및 언어 모델과 비교할 만한 성능으로 추천과 문맥 서술을 효과적으로 생성함을 보여줍니다.