다단계 추천 시스템에서 재랭킹은 아이템 간의 상관관계를 모델링하는 데 중요한 역할을 합니다. 본 논문은 순열의 조합 공간 내에서 최적의 시퀀스를 탐색하는 데 중점을 둡니다. 기존의 생성기-평가기 방식의 한계점을 극복하기 위해, 본 연구는 두 가지 주요 과제를 해결하는 통합 생성 효율적인 재랭킹 프레임워크(GReF)를 제안합니다. 구체적으로, 양방향 인코더와 동적 자기 회귀 디코더를 갖춘 Gen-Reranker를 도입하여 인과적 재랭킹 시퀀스를 생성합니다. 또한, Rerank-DPO를 통해 모델을 사후 훈련하여 종단 간 최적화를 수행하고 평가기의 필요성을 없앴습니다. 효율적인 자기 회귀 추론을 위해, 순서 지정된 멀티 토큰 예측(OMTP)을 도입하여 Gen-Reranker가 여러 미래 아이템을 동시에 생성하도록 훈련하여 실제 추천 시스템에서의 실용성을 보장합니다.
시사점, 한계점
•
시사점:
◦
End-to-end 학습을 위한 Rerank-DPO를 통한 통합 학습.
◦
OMTP를 통한 효율적인 자기 회귀 추론으로 실시간 추천 시스템에 적용 가능.
◦
최첨단 재랭킹 방법론보다 우수한 성능을 보이며, 비 자기 회귀 모델과 유사한 지연 시간을 달성.
◦
실제 대규모 비디오 앱(Kuaishou)에 배포되어 온라인 추천 품질을 크게 향상시킴.
•
한계점:
◦
논문에 구체적인 한계점 언급 없음. (일반적으로, 새로운 모델의 복잡성, 훈련 시간, 특정 데이터셋에 대한 성능 의존성 등을 고려해볼 수 있음.)