Webプラットフォームでのパーソナライズサービスの提供に重要な役割を果たすマルチソースユーザー表現学習の研究です。従来の研究は、異種データソースを組み合わせるために後期融合スキームを使用していましたが、統一された表現フレームワークの欠如、データ圧縮のスケーラビリティとストレージの問題、柔軟でないクロスワーク一般化という3つの主な制限がありました。この問題を解決するために、本論文は、異種ドメインの早期融合とクロスドメイン知識伝送を統合する新しいフレームワークであるU2QT(Unified User Quantized Tokenizers)を提案する。 U2QTはQwen3埋め込みモデルを使用して、小さいながらも表現力豊かな特徴表現を導き出し、マルチビューRQ-VAEを通じて因果埋め込みを共有とソース別コードブックを通じてコンパクトなトークンに離散化し、効率的な保存と意味論的一貫性を維持する。実験結果は、U2QTが将来の行動予測および推薦作業で作業ごとのベースラインを上回り、保存および計算効率を達成するなど、さまざまなダウンストリーム作業で利点を示しています。この統一されたトークン化フレームワークは、言語モデルとのシームレスな統合を可能にし、産業規模のアプリケーションをサポートします。