Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment

Created by
  • Haebom

作者

Yifan Wang, Runjin Chen, Bolian Li, David Cho, Yihe Deng, Ruqi Zhang, Tianlong Chen, Zhangyang Wang, Ananth Grama, Junyuan Hong

概要

本論文では、Direct Preference Optimization(DPO)を利用して大規模言語モデル(LLM)を人間の価値に合わせる過程で、マルチモデル生成データを使用すると一般的な作業性能は向上しますが、安全性の面ではむしろ性能が低下する現象を発見しました。特に、GPT-4oなどの強力なモデルを使用して好みの応答と拒否された応答を生成する場合、モデルはジャイルブレイクプロンプトに対する攻撃成功率(ASR)が高くなることを確認しました。単一モデル生成データを使用する場合は、マルチモデル生成データを使用する場合よりも安全性の点ではるかに優れた性能を示した。 Llama, Mistral, Qwen 系列モデルを対象とした実験結果から,これらの結論を支持した。

Takeaways、Limitations

Takeaways: DPOを使用したLLMの安全性を向上させるために、マルチモデル生成データの使用の利点と欠点を慎重に検討する必要があることを示唆しています。単一モデル生成データを使用することは、安全性の点でより効果的である可能性がある。強力なモデルを使用したマルチモデル生成データは、むしろ安全性を損なう可能性があることを明確に示しています。
Limitations:この研究は特定のモデルシリーズとデータセットの実験結果に基づいているため、他のモデルやデータセットの一般化の可能性は限られています。マルチモデル生成データの安全性阻害の原因のより深い分析が必要です。安全性を向上させるための代替DPO戦略に関する追加の研究が必要です。
👍