Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

RLTHF: Targeted Human Feedback for LLM Alignment

Created by
  • Haebom

作者

Yifei Xu, Tusher Chakraborty, Emre K{\i}c{\i}man, Bibek Aryal, Eduardo Rodrigues, Srinagesh Sharma, Roberto Estevao, Maria Angels de Luis Balaguer, Jessica Wolk, Rafael Padilha, Leonardo Nunes, Shobana Balakrisnan, Song

概要

本論文では、大規模言語モデル(LLM)をユーザーの好みに合わせる過程で、人間フィードバックベース強化学習(RLHF)の高コストとAIフィードバックの一般化限界問題を解決するために、ヒト-AIハイブリッドフレームワークであるRLTHFを提案します。 RLTHFは、LLMベースの初期アライメントと選択的ヒトアノテーションを組み合わせて、最小限の労力で完全なヒトアノテーションレベルのアラインメントを達成します。報酬モデルの報酬分布を使用して、LLMが誤って分類した困難なサンプルを特定し、戦略的な人間の修正を統合しながら、LLMが正確に分類したサンプルを活用して、繰り返しソートを改善します。 HH-RLHFおよびTL; DRデータセットでの評価の結果、RLTHFは、人間の注釈操作の6〜7%で完全なヒト注釈レベルのソートに達することを示しています。さらに、RLTHFのキュレーションデータセットでトレーニングされたモデルは、完全な人間の注釈データセットでトレーニングされたモデルよりもサブタスクで優れたパフォーマンスを示し、RLTHFの効果を強調します。

Takeaways、Limitations

Takeaways:
RLHFの高コスト問題を効果的に解決する新しいアプローチの提示
最小限の人間の努力で高レベルのモデルアライメントを達成
RLTHFで訓練されたモデルは、既存の完全注釈データ駆動型モデルよりも優れたパフォーマンスを示します。
LLMの強みと人間の専門知識を効果的に組み合わせたハイブリッドアプローチの有効性証明
Limitations:
RLTHFの性能は補償モデルの精度に依存する可能性があります。補償モデルの性能低下はRLTHFの効率低下につながる可能性がある。
限られたデータセット(HH-RLHF、TL; DR)での評価結果であるため、他のデータセットや作業の一般化性能にはさらなる研究が必要です。
どのようなエラーがLLMによって引き起こされ、どのエラーが人間によって修正されるかについての詳細な分析が欠けています。
RLTHFの選択的ヒト注釈戦略の最適化に関するさらなる研究が必要である。
👍