본 논문은 기존 추천 시스템의 한계를 극복하고 대규모 언어 모델(LLM) 기반의 더욱 지능적이고 상호작용적인 개인화 추천 어시스턴트를 평가하기 위한 새로운 데이터 벤치마크인 RecBench+를 제시합니다. RecBench+는 다양한 난이도의 복잡한 사용자 추천 요구를 포함하며, 기존의 고정된 프롬프트 기반 평가의 한계를 극복하고자 합니다. 논문에서는 RecBench+를 사용하여 여러 LLM을 평가하고, LLM이 추천 어시스턴트로서 초기 단계의 능력을 보유하고 있지만, 추론이 필요하거나 오해의 소지가 있는 질의에는 어려움을 겪는다는 것을 발견했습니다. RecBench+ 데이터셋은 공개되어 있으며, LLM 기반 추천 시스템의 포괄적인 성능 평가에 기여할 것으로 기대됩니다.