Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Estimating Worst-Case Frontier Risks of Open-Weight LLMs

Created by
  • Haebom

作者

Eric Wallace、Olivia Watkins、Miles Wang、Kai Chen、Chris Koch

概要

本論文は、オープンソースGPTモデル(gpt-oss)展開の最悪のシナリオリスクを研究する。生物学とサイバーセキュリティ両方の領域でgpt-ossの能力を最大化するために、悪意のある微調整(MFT)技術を導入しました。生物学的リスクを最大化するために、脅威生成関連のタスクを選択し、Webブラウジングが可能な強化学習環境でgpt-ossを学習しました。サイバーセキュリティリスクを最大化するために、エージェントコーディング環境でgpt-ossを学習して、Capture-The-Flag(CTF)の問題を解決するようにしました。 MFTモデルを開放型および閉鎖型の重みを持つ他の大規模言語モデルと比較評価したところ、閉鎖型モデルと比較した場合、MFT gpt-ossは生物学的リスクとサイバーセキュリティリスクの両方でPreparedness Highレベルより低いOpenAI o3よりも性能が低かった。オープンモデルと比較すると、gpt-ossは生物学的能力をわずかに向上させることができましたが、かなりの進歩はありませんでした。これらの結果はモデル配布の決定に寄与し、MFTアプローチが将来のオープンウェイトモデル配布のリスクを評価するのに役立つガイダンスになることが期待されます。

Takeaways、Limitations

Takeaways:悪意のある微調整(MFT)技術を利用して、オープンソースの大規模言語モデルの潜在的なリスクを評価するための新しいアプローチを提案しました。 MFTを使用すると、実際のリスクレベルをより正確に予測し、安全なモデル展開戦略の確立に貢献できます。この研究は、オープンソースモデルの展開に関する意思決定に役立つ情報を提供します。
Limitations: MFTを通じて評価されたリスクレベルは、実際の世界のリスクレベルを完全に反映していない可能性があります。評価に使用される作業や環境の制限により、実際の状況でのリスクを過小評価または過大評価する可能性があります。より多様で現実的なシナリオを考慮したさらなる研究が必要である。
👍