Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Cartes politiques : outils pour guider l'espace illimité des comportements LLM

Created by
  • Haebom

Auteur

Michelle S. Lam, Fred Hohman, Dominik Moritz, Jeffrey P. Bigham, Kenneth Holstein, Mary Beth Kery

Contour

Cet article présente « Policy Maps », une approche novatrice pour concevoir efficacement des politiques dans le vaste espace comportemental des modèles de langage à grande échelle (MLL). Inspirée de la cartographie physique, cette méthode facilite une exploration efficace grâce à des choix de conception délibérés concernant les aspects à capturer et ceux à abstraire, plutôt que de tenter d'englober tous les comportements. L'outil interactif « Policy Projector » permet aux utilisateurs d'explorer le paysage des paires entrée-sortie des MLL, de définir des zones définies par l'utilisateur (par exemple, « violence ») et d'explorer ces zones à l'aide de règles de politique conditionnelles applicables aux sorties des MLL (par exemple, si la sortie contient « violence » et « détails graphiques », réécrire sans « détails graphiques »). Il prend en charge les capacités de classification et de pilotage des MLL, ainsi que les visualisations cartographiques reflétant le travail des praticiens de l'IA. Des évaluations menées auprès de 12 experts en sécurité de l'IA démontrent son efficacité dans la rédaction de politiques pour les comportements problématiques des modèles, tels que les hypothèses de genre erronées et la gestion des menaces immédiates pour la sécurité physique.

Takeaways, Limitations

Takeaways:
Présentation d’une nouvelle approche de la conception de politiques efficaces dans le vaste espace d’action du LLM.
Les outils interactifs offrent un soutien intuitif et efficace au processus d’élaboration des politiques.
Validation de la praticité et de l'efficacité grâce à l'évaluation des experts en sécurité de l'IA
Fournir des solutions pratiques pour la conception de politiques pour les comportements problématiques des modèles.
Limitations:
Expertise requise pour la conception et la construction de cartes politiques
Des recherches supplémentaires sont nécessaires sur la convivialité et l’évolutivité des outils de projection de politiques.
Une validation supplémentaire de la généralisabilité est nécessaire en raison du nombre limité d’évaluations d’experts.
Des recherches supplémentaires sont nécessaires sur les différents types de LLM et leurs applications politiques.
👍