Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge
Created by
Haebom
저자
Francesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas
개요
본 논문은 팟캐스트와 같은 장문 오디오 분야에서 개인화된 추천의 질을 평가하기 위한 새로운 프레임워크를 제안합니다. 기존의 오프라인 지표는 노출 편향 문제를 가지고 있으며, A/B 테스트와 같은 온라인 방법은 비용이 많이 들고 운영상 제약이 있기 때문에, 이러한 문제를 해결하기 위해 대규모 언어 모델(LLM)을 오프라인 평가자로 활용하는 방법을 제시합니다. 90일간의 청취 이력을 통해 추출된 자연어 사용자 프로필을 생성하고, 이를 통해 사용자의 관심사와 추천 에피소드 간의 일치도를 효과적으로 판단할 수 있도록 LLM에 고차원의 의미론적으로 풍부한 맥락을 제공합니다. 이 프로필 기반 접근 방식은 LLM에 대한 입력 복잡성을 줄이고 해석력을 향상시키며, LLM은 프로필-에피소드 매칭을 기반으로 세분화된 점별 및 쌍별 판단을 내립니다. 47명의 참가자를 대상으로 한 통제된 연구에서, 제안된 프레임워크는 인간의 판단과 높은 충실도로 일치하며, 원시 청취 이력을 사용하는 변형보다 성능이 우수하거나 동등했습니다. 이 프레임워크는 추천 시스템에서 반복적인 테스트와 모델 선택을 위한 효율적인 프로필 기반 평가를 가능하게 합니다.
시사점, 한계점
•
시사점:
◦
LLM을 활용하여 팟캐스트 추천 시스템의 평가를 효율적이고 해석 가능하게 수행할 수 있는 새로운 프레임워크 제시.