Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

IA a nivel de calle: ¿Están los modelos de lenguaje de gran tamaño preparados para los juicios del mundo real?

Created by
  • Haebom

Autor

Gaurab Pokharel, Shafkat Farabi, Patrick J. Fowler, Sanmay Das

Describir

Este artículo revisa investigaciones recientes que exploran las implicaciones éticas y sociales de los modelos de IA a gran escala que emiten juicios "morales". Si bien investigaciones anteriores se han centrado principalmente en la alineación con el juicio humano mediante diversos experimentos mentales o en la imparcialidad colectiva del juicio de la IA, este artículo se centra en su aplicación más inmediata y prometedora: asistir o reemplazar a los funcionarios de primera línea en la determinación de la asignación de recursos sociales escasos o la aprobación de prestaciones. Basándose en una rica experiencia histórica sobre cómo las sociedades determinan los mecanismos de priorización para la asignación de recursos escasos, este artículo utiliza datos reales sobre las necesidades de servicios para personas sin hogar para examinar la adecuación de los juicios de los modelos de IA a gran escala (LMA) al juicio humano y a los sistemas de puntuación de vulnerabilidad utilizados actualmente (para mantener la confidencialidad de los datos, solo se utilizan modelos locales a gran escala). El análisis revela inconsistencias significativas en las decisiones de priorización de los LMA en múltiples dimensiones: entre implementaciones, entre LMA y entre LMA y sistemas de puntuación de vulnerabilidad. Al mismo tiempo, los LMA demuestran una concordancia cualitativa con el juicio humano típico en pruebas de comparación bidireccional. Estos resultados sugieren que los sistemas de IA de la generación actual simplemente no están listos para integrarse en la toma de decisiones sociales de alto riesgo.

Takeaways, Limitations

Takeaways: Los LLM actuales demuestran una fiabilidad insuficiente para su uso directo en la toma de decisiones sociales de alto riesgo (p. ej., la asignación de recursos escasos). Si bien sus juicios son consistentes con el juicio humano en algunos aspectos, carecen de coherencia interna y con otros sistemas. Los análisis con datos del mundo real ofrecen importantes implicaciones para la aplicabilidad práctica de los sistemas de IA.
Limitations: El estudio se limitó a un dominio específico (asignación de recursos para personas sin hogar) y su generalización a otros ámbitos de toma de decisiones sociales es limitada. Si bien se mantuvo la confidencialidad de los datos utilizando únicamente modelos regionales a gran escala, no se puede descartar la posibilidad de que las características del modelo hayan influido en los resultados. La consistencia cualitativa de los modelos de larga duración (LLM) puede ser más subjetiva que la de las medidas cuantitativas.
👍