Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ChatGPT no confía en los aficionados de los Chargers: la sensibilidad de la barandilla en contexto

Created by
  • Haebom

Autor

Victoria R. Li, Yida Chen, Naomi Saphra

Describir

Este artículo examina el sesgo de las barreras de seguridad en los modelos de lenguaje generativo (LLM). En concreto, analizamos el impacto de la información de origen del usuario (edad, género, raza, afiliación política, etc.) en la probabilidad de rechazo de solicitudes de LLM, utilizando GPT-3.5. Nuestros hallazgos revelan que las usuarias jóvenes y las personas asiático-americanas tienen mayor probabilidad de ser rechazadas al solicitar información prohibida o ilegal, y que las barreras de seguridad tienden a rechazar solicitudes que contradicen las inclinaciones políticas del usuario. Además, observamos que incluso información inocua, como la afición deportiva, puede inferir las inclinaciones políticas del usuario e influir en la activación de las barreras de seguridad.

Takeaways, Limitations

Takeaways: Demostramos que las salvaguardas de LLM pueden operar con sesgo según las características demográficas y las inclinaciones políticas de los usuarios. Esto plantea serias dudas sobre la imparcialidad y la equidad. Sugerimos que las salvaguardas de LLM consideren la diversidad de usuarios en su diseño y evaluación. Resaltamos la necesidad de nuevas metodologías para medir el sesgo de las salvaguardas que utilizan información sobre los antecedentes de los usuarios.
Limitations: Este estudio se centró en un LLM específico, GPT-3.5. Por lo tanto, se requiere más investigación para determinar si puede aplicarse a otros LLM. Debido a las limitaciones del método de generación de perfiles de usuario, es posible que no refleje plenamente la diversidad de los usuarios reales. El alcance de la información sobre los antecedentes de los usuarios utilizada en el estudio puede ser limitado.
👍