Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

AlignGuard: Scalable Safety Alignment for Text-to-Image Generation

Created by
  • Haebom

作者

Runtao Liu, I Chieh Chen, Jindong Gu, Jipeng Zhang, Renjie Pi, Qifeng Chen, Philip Torr, Ashkan Khakzar, Fabio Pizzati

概要

本稿では、テキストイメージ(T2I)モデルの安全性を向上させる新しい方法であるAlignGuardを紹介します。既存の安全対策がいくつかの概念を排除するのにとどまる限界を克服するために、AlignGuardは合成データセットCoProV2を使用して直接選好最適化(DPO)を適用します。 CoProV2は有害で安全な画像とテキストのペアで構成されており、低次元適応(LoRA)行列の形で安全専門家を訓練します。訓練された安全専門家は、生成プロセスを特定の安全関連概念から逸脱するように誘導し、新しいマージ戦略を介して複数の専門家を1つのLoRAに効率的に統合します。その結果、AlignGuardは従来の方法よりも7倍の有害概念を排除し、複数のベンチマークで最先端のパフォーマンスを達成します。コードとデータはhttps://safetydpo.github.io/で公開される予定です。

Takeaways、Limitations

Takeaways:
T2Iモデルの安全性を大幅に向上させる新しい方法(AlignGuard)の提示
DPOをT2Iモデルの安全性向上に効果的に適用
従来の方法よりはるかに多くの有害概念を排除(7倍向上)
さまざまなベンチマークで最高のパフォーマンスを達成
コードとデータ開示による研究の再現性と拡張性の確保
Limitations:
CoProV2データセットの生成方法と品質の詳細な説明の欠如
特定の種類の有害コンテンツのパフォーマンスのみが評価された可能性
実使用環境における安全性評価不足
新しい安全脅威に対する適応力に関するさらなる研究が必要
👍