Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendizaje de desencadenantes adversarios aumentado

Created by
  • Haebom

Autor

Zhe Wang, Yanjun Qi

Describir

Para superar las limitaciones del aprendizaje de desencadenadores adversarios (ATLA) existente, este artículo propone el Aprendizaje de Desencadenantes Adversarios con Objetivos Aumentados (ATLA). ATLA mejora la función de pérdida de log-verosimilitud negativa existente a una función de pérdida ponderada, lo que garantiza que los desencadenadores adversarios aprendidos estén mejor optimizados para tokens de tipo respuesta. Esto permite aprender los desencadenadores adversarios con un solo par pregunta-respuesta, lo que garantiza una buena generalización a otras consultas similares. Además, la optimización de los desencadenadores se mejora al añadir una función de pérdida auxiliar que suprime las respuestas evasivas. Los resultados experimentales demuestran que ATLA supera a las técnicas de vanguardia existentes, alcanzando una tasa de éxito cercana al 100% con un 80% menos de consultas. Los desencadenadores adversarios aprendidos también se generalizan bien a nuevas consultas y LLM. El código fuente está disponible públicamente.

Takeaways, Limitations

Takeaways:
El aprendizaje desencadenante adversarial es posible con un único par de preguntas y respuestas.
Consiga mayores tasas de éxito y eficiencia en comparación con los métodos existentes (80% menos de consultas)
Alto rendimiento de generalización y potencial de transferencia de aprendizaje de los desencadenantes aprendidos
Eficaz para explotar vulnerabilidades de LLM y extraer indicaciones del sistema
Garantizar la reproducibilidad mediante código fuente abierto
Limitations:
Es posible que sea necesario realizar más estudios para determinar el rendimiento de la generalización para LLM específicos o tipos de consultas.
Se necesita investigación de optimización en el diseño y ajuste de peso de las funciones de pérdida auxiliares.
Es necesario evaluar la robustez de ATLA frente a nuevas técnicas de defensa.
👍