Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Subjective Behaviors and Preferences in LLM: Language of Browsing

Created by
  • Haebom

作者

Sai Sundaresan, Harshita Chopra, Atanu R. Sinha, Koustava Goswami, Nagasai Saketh Naidu, Raghav Karan, N Anushka

概要

本論文は、ユーザーのウェブサイトまたはアプリ利用行動という主観的で特異的なデータに基づいて、大規模言語モデル(LLM)の有用性に疑問を提起します。ユーザーのシーケンシャルページアクセス履歴を各ユーザーの固有の「ブラウジング言語」と見なして、小規模な言語モデルが大規模な言語モデルよりもこれらの「ブラウジング言語」をよりよく表現できるのか、単一パラメータを持つ言語モデルがさまざまなユーザーの異質な行動を十分に捉えることができるのか、高い平均性能を持つ単一言語モデルがユーザーレベルで一貫したパフォーマンスを示すのかについて。これに答えて、主観的な行動に適したクラスター固有の言語モデルの訓練方法であるHeTLM(Heterogeneity aware Training of Language Model)を提案し、小規模言語モデルがページ単位のトークナイザーを使用して訓練されたとき、大規模な事前訓練や微調整された言語モデルよりも性能が優れており、HeTLMが単一言語モデルよりも性能を向上し、改善が実験的に示されています。

Takeaways、Limitations

Takeaways:
小規模言語モデルをページ単位のトークナイザーと組み合わせて使用​​すると、ユーザーの主観的なWeb閲覧パターンをよりよくモデル化できることが示唆されます。
ユーザー間の異質性を考慮したクラスターベースの言語モデルトレーニング(HeTLM)は、単一言語モデルよりも優れたパフォーマンスとユーザーレベルの一貫性を提供できることを示しています。
ユーザーのウェブ閲覧データを「言語」とみなして分析する新しい視点を提示します。
Limitations:
HeTLMのパフォーマンス向上が特定のデータセットに限定される可能性があります。さまざまなデータセットに対する追加の実験が必要です。
閲覧データの特性(個人情報保護の問題など)を考慮した倫理的な側面についての議論は欠けています。
ユーザーのブラウジング行動を完全に捉えるモデルを開発するには、まだ限界が存在する可能性があります。ユーザーの行動の複雑さと多様性を完全に反映することは難しいかもしれません。
👍