Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ChatGPT ne fait pas confiance aux fans des Chargers : la sensibilité aux garde-fous en contexte

Created by
  • Haebom

Auteur

Victoria R. Li, Yida Chen, Naomi Saphra

Contour

Cet article examine le biais des garde-fous dans les modèles de langage génératif (MLG). Plus précisément, nous analysons l'impact des informations d'origine de l'utilisateur (âge, sexe, origine ethnique, appartenance politique, etc.) sur la probabilité de rejet des demandes de LLM, à l'aide de GPT-3.5. Nos résultats révèlent que les jeunes femmes et les utilisateurs d'origine asiatique sont plus susceptibles d'être rejetés lorsqu'ils demandent des informations interdites ou illégales, et que les garde-fous tendent à rejeter les demandes qui contredisent les convictions politiques de l'utilisateur. De plus, nous constatons que même des informations anodines, comme le niveau de soutien sportif, peuvent déduire les convictions politiques d'un utilisateur et influencer l'activation des garde-fous.

Takeaways, Limitations

Takeaways: Nous démontrons que les mesures de protection des LLM peuvent être biaisées en fonction des caractéristiques démographiques et des convictions politiques des utilisateurs. Cela soulève de sérieuses questions d'équité et de justice. Nous suggérons que les mesures de protection des LLM prennent en compte la diversité des utilisateurs dans leur conception et leur évaluation. Nous soulignons également la nécessité de nouvelles méthodologies pour mesurer les biais des mesures de protection qui utilisent les informations contextuelles des utilisateurs.
Limitations: Cette étude s'est concentrée sur un LLM spécifique, le GPT-3.5. Par conséquent, des recherches supplémentaires sont nécessaires pour déterminer si elle peut être appliquée à d'autres LLM. En raison des limites de la méthode de génération de profils utilisateurs, elle pourrait ne pas refléter pleinement la diversité des utilisateurs réels. La portée des informations contextuelles des utilisateurs utilisées dans l'étude pourrait être limitée.
👍