Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Street-Level AI: Are Large Language Models Ready for Real-World Judgments?

Created by
  • Haebom

作者

Gaurab Pokharel, Shafkat Farabi, Patrick J. Fowler, Sanmay Das

概要

本論文は、大規模なAIモデルが「道徳的」判断を下すことに関する倫理的、社会的意味合いを探る最近の研究を検討する。既存の研究は主に様々な事故実験による人間判断との整合またはAI判断の集団公平性に焦点を当てているが、本論文はAIの最も即時かつ可能性の高い活用分野である希少社会資源配分または恩恵承認を決定する一線公務員を支援または置換することに焦点を当てている。論文では、希少資源配分における社会が優先順位決定メカニズムをどのように決定するかについての豊富な歴史的背景を考慮して、実際の無住宅サービス必要データを使用して、LLM判断が人間の判断と現在使用されている脆弱性スコアシステムとどれだけうまく一致するかを調べる。 (データの機密性を維持するために地域の大規模モデルのみを使用)。分析の結果、LLM優先順位決定は、いくつかの点で(異なる実行間、異なるLLM間、LLMと脆弱性スコアシステム間)非常に矛盾していることを示しています。同時に、LLMは双方の比較検査で一般的な人間の判断と定性的に一致することを示しています。これらの結果は、現在の世代AIシステムが高リスク社会的意思決定に単純に統合される準備ができていないことを示唆しています。

Takeaways、Limitations

Takeaways:現在のLLMは、高リスクの社会的意思決定(例えば、希少資源配分)に直接使用するための信頼性が不足していることを示しています。 LLMの判断が人間の判断と一致する部分があるが、内部的一貫性および他のシステムとの一貫性が不足している。現実世界データを用いた分析結果は、AIシステムの実際の適用可能性に関する重要な意味を提供する。
Limitations:研究は特定のドメイン(無住宅資源配分)に限定されており、他の社会的意思決定ドメインへの一般化には制限があります。地域の大規模モデルのみを使用してデータの機密性を維持しましたが、モデルの特性が結果に影響を与えた可能性を排除することはできません。 LLMの定性的一貫性は、定量的測定よりも主観的であり得る。
👍