Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Estimation des risques de frontière du pire cas des LLM à pondération ouverte

Created by
  • Haebom

Auteur

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch

Contour

Cet article étudie le risque du pire scénario lié au déploiement du modèle GPT open source (gpt-oss). Afin d'optimiser les capacités de gpt-oss dans les domaines de la biologie et de la cybersécurité, nous utilisons la technique de réglage fin malveillant (MFT). Pour maximiser le risque biologique, nous avons sélectionné des tâches génératrices de menaces et entraîné gpt-oss dans un environnement d'apprentissage par renforcement de la navigation web. Pour maximiser le risque de cybersécurité, nous avons entraîné gpt-oss dans un environnement de codage d'agent afin de résoudre le problème de capture du drapeau (CTF). Nous avons comparé le modèle MFT à d'autres modèles de langage à grande échelle avec des pondérations ouvertes et fermées. Comparé aux modèles fermés, le modèle MFT gpt-oss a sous-performé OpenAI o3, dont le score était inférieur au niveau de préparation élevé, en termes de risque biologique et de cybersécurité. Comparé aux modèles ouverts, gpt-oss a légèrement amélioré le risque biologique, mais pas de manière significative. Ces résultats ont contribué aux décisions de déploiement du modèle, et nous espérons que l'approche MFT fournira des indications utiles pour évaluer les risques des futurs déploiements de modèles à pondération ouverte.

Takeaways, Limitations

Takeaways: Nous présentons une nouvelle approche pour évaluer les risques potentiels des modèles linguistiques open source à grande échelle en exploitant la technique de réglage fin malveillant (MFT). La MFT peut nous aider à prédire plus précisément le niveau de risque réel et à développer des stratégies de déploiement de modèles sûres. Les résultats de cette étude fournissent des informations utiles pour la prise de décision concernant le déploiement de modèles open source.
Limitations: Le niveau de risque évalué par MFT peut ne pas refléter parfaitement le niveau de risque réel. En raison des limites des tâches et des environnements utilisés dans l'évaluation, il est possible que le risque réel soit sous-estimé ou surestimé. Des recherches complémentaires sont nécessaires pour envisager des scénarios plus diversifiés et réalistes.
👍