Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

IA au niveau de la rue : les grands modèles linguistiques sont-ils prêts pour les jugements du monde réel ?

Created by
  • Haebom

Auteur

Gaurab Pokharel, Shafkat Farabi, Patrick J. Fowler, Sanmay Das

Contour

Cet article passe en revue les recherches récentes explorant les implications éthiques et sociales des modèles d'IA à grande échelle formulant des jugements « moraux ». Alors que les recherches précédentes se sont principalement concentrées sur l'alignement avec le jugement humain, à travers diverses expériences de pensée, ou sur l'équité collective du jugement de l'IA, cet article se concentre sur l'application la plus immédiate et la plus prometteuse de l'IA : assister ou remplacer les agents de première ligne dans la détermination de l'allocation de ressources sociales rares ou l'approbation des prestations sociales. S'appuyant sur un riche historique de la manière dont les sociétés déterminent les mécanismes de priorisation pour l'allocation de ressources rares, cet article utilise des données réelles sur les besoins en services aux sans-abri pour examiner l'adéquation des jugements des modèles de niveau de vie (LLM) avec le jugement humain et les systèmes de notation de la vulnérabilité actuellement utilisés (afin de préserver la confidentialité des données, seuls des modèles locaux à grande échelle sont utilisés). L'analyse révèle d'importantes incohérences dans les décisions de priorisation des modèles de niveau de vie (LLM) sur de multiples dimensions : entre les implémentations, entre les modèles de niveau de vie (LLM) et entre les modèles de niveau de vie (LLM) et les systèmes de notation de la vulnérabilité. Parallèlement, les modèles de niveau de vie (LLM) présentent une concordance qualitative avec le jugement humain typique lors de tests de comparaison bidirectionnelle. Ces résultats suggèrent que les systèmes d'IA actuels ne sont tout simplement pas prêts à être intégrés dans les prises de décision sociétales à enjeux élevés.

Takeaways, Limitations

Takeaways: Les LLM actuels ne sont pas suffisamment fiables pour être utilisés directement dans la prise de décisions sociales à haut risque (par exemple, l'allocation de ressources rares). Bien que les jugements des LLM soient cohérents avec le jugement humain à certains égards, ils manquent de cohérence interne et de cohérence avec d'autres systèmes. Les analyses utilisant des données réelles fournissent des implications importantes pour l'applicabilité pratique des systèmes d'IA.
Limitations: L'étude était limitée à un domaine spécifique (allocation des ressources aux sans-abri) et sa généralisabilité à d'autres domaines de prise de décision sociale est limitée. Bien que la confidentialité des données ait été préservée grâce à l'utilisation exclusive de modèles régionaux à grande échelle, on ne peut exclure que les caractéristiques des modèles aient influencé les résultats. La cohérence qualitative des modèles de mesure du niveau de vie peut être plus subjective que celle des mesures quantitatives.
👍