Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mapas de políticas: herramientas para guiar el espacio ilimitado de comportamientos de LLM

Created by
  • Haebom

Autor

Michelle S. Lam, Fred Hohman, Dominik Moritz, Jeffrey P. Bigham, Kenneth Holstein, Mary Beth Kery

Describir

Este artículo presenta "Mapas de Políticas", un enfoque novedoso para diseñar políticas eficazmente en el vasto espacio de comportamiento de los modelos de lenguaje a gran escala (LLM). Inspirado en la cartografía física, este método facilita una exploración eficaz mediante decisiones de diseño deliberadas sobre qué aspectos capturar y cuáles abstraer, en lugar de intentar abarcar todos los comportamientos. El "Proyector de Políticas", una herramienta interactiva, permite a los usuarios explorar el panorama de pares de entrada-salida de LLM, definir regiones definidas por el usuario (p. ej., "violencia") y explorar estas regiones mediante reglas de política condicionales que pueden aplicarse a las salidas de LLM (p. ej., si la salida contiene "violencia" y "detalles gráficos", reescribir sin "detalles gráficos"). Admite capacidades de clasificación y dirección de LLM, así como visualizaciones de mapas que reflejan el trabajo de profesionales de IA. Las evaluaciones con 12 expertos en seguridad de IA demuestran su eficacia en la elaboración de políticas para comportamientos problemáticos de los modelos, como suposiciones incorrectas sobre el género, y en la gestión de amenazas inmediatas a la seguridad física.

Takeaways, Limitations

Takeaways:
Presentando un nuevo enfoque para el diseño de políticas efectivas en el amplio espacio de acción del LLM.
Las herramientas interactivas proporcionan un soporte intuitivo y eficiente para el proceso de redacción de políticas.
Validación de la practicidad y la eficacia mediante la evaluación de expertos en seguridad de IA
Proporcionar soluciones prácticas para el diseño de políticas para el comportamiento problemático de los modelos.
Limitations:
Experiencia necesaria para diseñar y construir mapas de políticas
Se necesita más investigación sobre la usabilidad y escalabilidad de las herramientas de proyección de políticas.
Se necesita una mayor validación de la generalización debido al número limitado de evaluaciones de expertos.
Se necesita más investigación sobre los diferentes tipos de LLM y sus aplicaciones políticas.
👍