Sign In

Unleashing the Potential of Two-Tower Models: Diffusion-Based Cross-Interaction for Large-Scale Matching

Created by
  • Haebom
Category
Empty

저자

Yihan Wang, Fei Xiong, Zhexin Han, Qi Song, Kaiqiao Zhan, Ben Wang

개요

본 논문은 대규모 매칭 단계에서 널리 사용되는 투 타워 모델의 한계를 극복하기 위해 새로운 구조인 "교차 상호작용 분리 아키텍처"를 제안합니다. 투 타워 모델은 사용자와 아이템 표현을 분리하여 효율성을 높이지만, 사용자와 아이템 표현 간의 상호작용 정보를 무시하는 단점이 있습니다. 기존 연구들은 이를 완화하기 위해 추가적인 레이어를 추가하거나, 기존 상호작용 정보를 입력 특징으로 사용하는 방식을 채택했지만 성능 향상에 한계가 있었습니다. 본 논문에서 제안하는 새로운 아키텍처는 확산 모듈을 사용하여 다음 긍정적 의도 표현을 재구성하고, 혼합 주의 모듈을 사용하여 포괄적인 교차 상호작용을 가능하게 합니다. 또한, 사용자 행동 시퀀스 내의 시간적 변화를 명시적으로 추출하여 다음 긍정적 의도의 재구성 정확도를 높였습니다. 실제 데이터셋 두 개와 산업용 데이터셋 하나에 대한 실험 결과, 제안된 방법이 기존 최고 성능의 투 타워 모델보다 성능이 훨씬 우수하며, 확산 방식이 다른 생성 모델보다 아이템 표현 재구성에 더 효과적임을 보였습니다.

시사점, 한계점

시사점:
투 타워 모델의 한계점인 사용자와 아이템 표현 간 상호작용 정보 무시 문제를 효과적으로 해결하는 새로운 아키텍처를 제시.
확산 모듈과 혼합 주의 모듈을 활용하여 사용자의 다음 의도를 더욱 정확하게 예측하고, 상호작용을 개선.
사용자 행동 시퀀스의 시간적 변화를 고려하여 모델의 정확도 향상.
실제 데이터셋을 통한 실험 결과, 기존 최고 성능 모델 대비 성능 향상을 검증.
한계점:
제안된 아키텍처의 복잡성이 기존 투 타워 모델보다 높을 수 있음.
특정 도메인에 최적화된 모델일 가능성이 있으며, 다른 도메인으로의 일반화 성능은 추가적인 연구가 필요.
사용자 행동 시퀀스의 시간적 변화를 고려하는 방식의 효율성 및 확장성에 대한 추가적인 분석 필요.
👍