本論文は、既存の敵対的トリガー学習(Adversarial Trigger Learning)方法の限界を克服するために、Atversarial Trigger Learning with Augmented objectives(ATLA)を提案する。 ATLAは、既存の負の対数尤度損失関数を重み損失関数で改善し、学習された敵対トリガーが応答形式トークンにさらに最適化されるようにします。これにより、単一のクエリ - 応答ペアだけで敵対的なトリガを学習し、他の同様のクエリにも一般化がうまくいくようにします。さらに、回避応答を抑制する補助損失関数を追加して、トリガ最適化を改善した。実験の結果、ATLAは従来の最先端技術より性能が優れており、ほぼ100%の成功率を達成しながら、80%少ないクエリだけで動作することを示した。学習された敵対的なトリガーは、新しいクエリとLLMにもよく一般化されています。ソースコードは公開されました。