Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Learning Unified User Quantized Tokenizers for User Representation

Created by
  • Haebom

作者

Chuan He, Yang Chen, Wuliang Huang, Tianyi Zheng, Jianhu Chen, Bin Dou, Yice Luo, Yun Zhu, Baokun Wang, Yongchao Liu, Xing Fu, Yu Cheng, Chuntao Hong, Weiqiang Wang, Xin-Wei Yao, Zhongle Xie

概要

Webプラットフォームでのパーソナライズサービスの提供に重要な役割を果たすマルチソースユーザー表現学習の研究です。従来の研究は、異種データソースを組み合わせるために後期融合スキームを使用していましたが、統一された表現フレームワークの欠如、データ圧縮のスケーラビリティとストレージの問題、柔軟でないクロスワーク一般化という3つの主な制限がありました。この問題を解決するために、本論文は、異種ドメインの早期融合とクロスドメイン知識伝送を統合する新しいフレームワークであるU2QT(Unified User Quantized Tokenizers)を提案する。 U2QTはQwen3埋め込みモデルを使用して、小さいながらも表現力豊かな特徴表現を導き出し、マルチビューRQ-VAEを通じて因果埋め込みを共有とソース別コードブックを通じてコン​​パクトなトークンに離散化し、効率的な保存と意味論的一貫性を維持する。実験結果は、U2QTが将来の行動予測および推薦作業で作業ごとのベースラインを上回り、保存および計算効率を達成するなど、さまざまなダウンストリーム作業で利点を示しています。この統一されたトークン化フレームワークは、言語モデルとのシームレスな統合を可能にし、産業規模のアプリケーションをサポートします。

Takeaways、Limitations

Takeaways:
異種データソースを効果的に融合し、パーソナライズサービスのパフォーマンスを向上させます。
スケーラビリティとストレージの問題を解決し、大規模なデータ環境での適用性を高めます。
言語モデルとの統合により、さまざまなタスクに適用可能性を開くことができます。
将来の行動予測と推薦作業における既存の方法論と比較して優れた性能を示した。
Limitations:
具体的な性能指標と比較対象に関する詳細情報の欠如
モデルの一般化能力に関する追加の実験と分析の必要性
実際の産業環境におけるU2QTの適用事例の追加検証が必要
👍