Soft Token Attacks Cannot Reliably Audit Unlearning in Large Language Models
Created by
Haebom
作者
Haokun Chen, Sebastian Szyller, Weilin Xu, Nageen Himayat
概要
本論文は、大規模言語モデル(LLM)の機械学習(unlearning)プロセスで使用されるソフトトークン攻撃(STA)の有効性の評価を提供します。既存の研究では、STAがアンランニングされた情報を正常に抽出できると主張されていますが、本研究は、強力な監査環境で、STAがアンランニングアルゴリズムまたは元のトレーニングデータにその情報が含まれているかどうかにかかわらず、LLMから任意の情報を漏洩する可能性があることを示しています。 Who Is Harry Potter?とTOFUのようなベンチマークを使ってこれを実証し、少数のソフトトークン(1-10個)だけでも400文字以上の任意の文字列を流出できることを明らかにします。そのため、STA をランニング監査に効果的に使用するためには、慎重なアプローチが必要であることを強調しています。