[공지사항]을 빙자한 안부와 근황

Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendizaje federado eficiente con datos heterogéneos y abandono adaptativo

Eficiencia energética en IA para 5G y más allá: un estudio de caso de DeepRx

Un marco PBN-RL-XAI para descubrir una estrategia terapéutica de “golpe y fuga” en el melanoma

Costura de modelos de base con modalidad (casi) libre

Prompt4Trust: Un marco de aprendizaje de refuerzo para la calibración de la confianza clínicamente alineada en modelos lingüísticos multimodales de gran tamaño

SEALGuard: Protección de conversaciones multilingües en idiomas del sudeste asiático para sistemas de software LLM

Adaptación de la deriva jerárquica dual para el aprendizaje del rendimiento de la configuración en línea

El estimador Parzen estructurado en árbol puede resolver la optimización combinatoria de caja negra de forma más eficiente

EXPO: Aprendizaje de refuerzo estable con políticas expresivas

Aprendizaje de refuerzo con fragmentación de acciones

Sobre el efecto de la pérdida de ajuste de instrucciones en la generalización

Estaciones de alucinación: sobre algunas limitaciones básicas de los modelos de lenguaje basados en transformadores

Texto a modelo mediante SysML: generación automatizada de modelos computacionales de sistemas dinámicos a partir de texto en lenguaje natural no estructurado mediante diagramas de lenguaje de modelado de sistemas mejorados

Aprendizaje basado en características vs. aprendizaje basado en GAN a partir de demostraciones: cuándo y por qué

DRAGON: Punto de referencia dinámico de RAG en noticias

Predicción de erupciones solares mediante memoria a largo plazo (LSTM) y descomposición-LSTM con reconocimiento de patrones de ventana deslizante

Bosques de conversación: la clave para ajustar los modelos de lenguaje grandes para conversaciones médicas de múltiples turnos es la ramificación

RAG-R1: Incentivar las capacidades de búsqueda y razonamiento de los LLM mediante paralelismo de múltiples consultas

Siguiendo las pistas: experimentos de reidentificación de personas mediante inteligencia intermodal

La estilometría reconoce textos humanos y generados por LLM en muestras cortas

QLPro: Descubrimiento automatizado de vulnerabilidades de código mediante la integración de LLM y análisis de código estático

Evaluación de modelos lingüísticos multimodales amplios en la respuesta a preguntas de libros de texto educativos

FeDa4Fair: Conjuntos de datos federados a nivel de cliente para la evaluación de la equidad

Alivio del sesgo de sensibilidad del usuario con un modelo de recomendación secuencial generativo justo

MATE: LLM - Entorno de traducción multiagente para aplicaciones de accesibilidad

DeInfoReg: un marco de aprendizaje desacoplado para un mejor rendimiento de la formación

FLAME: Hacia el ajuste fino federado de grandes modelos lingüísticos mediante SMoE adaptativo

ImpliRet: evaluación comparativa del desafío de la recuperación de hechos implícitos

El precio de la libertad: exploración de las compensaciones entre expresividad y tiempo de ejecución en productos tensoriales equivalentes

Los límites de la marginación manejable

Un marco semántico cuántico para el procesamiento del lenguaje natural

ProtocolLLM: Punto de referencia RTL para la generación de protocolos de comunicación SystemVerilog

La tecnología deepfake al descubierto: la mercantilización de la IA y su impacto en la confianza digital

Dinámica de entrenamiento subyacente a las leyes de escalamiento del modelo lingüístico: desaceleración de la pérdida y aprendizaje de suma cero

Crítica-GRPO: Avances en el razonamiento LLM con lenguaje natural y retroalimentación numérica

Matrix es todo lo que necesitas

La fragmentación temporal mejora el reconocimiento de patrones secuenciales implícitos

Siete desafíos de seguridad que deben resolverse en sistemas LLM multiagente y de dominio cruzado

PAN-Crafter: Alineación consistente con la modalidad de aprendizaje para el perfeccionamiento de PAN

FlowAlign: Edición de imágenes basada en flujo sin inversión y con trayectoria regularizada

Viajando entre idiomas: evaluación comparativa de la coherencia interlingüística en programas de maestría en derecho multimodales

FalseReject: Un recurso para mejorar la seguridad contextual y mitigar los rechazos excesivos en los LLM mediante razonamiento estructurado

Análisis de sentimiento multimodal en el conjunto de datos CMU-MOSEI mediante modelos basados en transformadores

Nexus-Gen: Comprensión, generación y edición unificada de imágenes mediante autorregresión precargada en un espacio de incrustación compartido

Aprovechamiento de modelos lingüísticos amplios para la detección multiclase y multietiqueta del consumo de drogas y síntomas de sobredosis en redes sociales

Repensando las bases del aprendizaje por refuerzo continuo

Flujos de composición para el diseño conjunto de moléculas 3D y vías de síntesis

Replanteando RoPE: un modelo matemático para la incrustación posicional N-dimensional

Refactorización automatizada especulativa de programas de aprendizaje profundo imperativos para la ejecución gráfica

Adaptación del modelo de segmentación médica básica en tiempo de prueba sin actualizaciones paramétricas

El estilo por encima de la sustancia: los modelos lingüísticos destilados razonan mediante la réplica estilística

Conjunto de datos AnnoPage: Conjunto de datos de elementos no textuales en documentos con categorización detallada

Poda de nodos de múltiples vistas para una representación gráfica precisa

Hi Robot: Seguimiento de instrucciones abiertas con modelos jerárquicos de visión-lenguaje-acción

¿Votación o consenso? Toma de decisiones en un debate multiagente

¿Asistencia o disrupción? Exploración y evaluación del diseño y las ventajas y desventajas del soporte proactivo para la programación de IA.

Un enfoque generativo para la detección de nocividad de LLM con tokens de bandera roja especiales

Entrenamiento de puntuación de mezcla: Entrenamiento de modelos generativos de un solo paso simplificado mediante la estimación de puntuación de distribuciones de mezcla

Los ataques de manipulación de modelos permiten evaluaciones más rigurosas de las capacidades de LLM

Conjuntos de datos sintéticos para el aprendizaje automático en gráficos espacio-temporales mediante PDE

Cumplir: Aprender oraciones con pesos complejos inspirados en el olfato de la mosca de la fruta

Aprendizaje por refuerzo inverso con recompensas cambiantes y dependencia histórica para caracterizar el comportamiento animal

Reconocimiento de señales de radar de pocos disparos mediante aprendizaje autosupervisado y adaptación del dominio de radiofrecuencia

Análisis de aprendizaje por transferencia de circuitos cuánticos variacionales

Plancraft: un conjunto de datos de evaluación para la planificación con agentes LLM

Modelado del comportamiento humano totalmente basado en datos pero interpretable con un modelo de elección discreta diferenciable

Una revisión de la cuantificación de la incertidumbre bayesiana en la segmentación de imágenes probabilística profunda

¿La calidad o la cantidad de los datos de entrenamiento tienen mayor impacto en el rendimiento de un modelo de lenguaje pequeño?

Búsqueda de espacios de programas latentes

Los marcos pragmáticos de las correlaciones espurias en el aprendizaje automático: interpretación de cómo y por qué son importantes

ComFairGNN: Red neuronal de gráficos de feria comunitaria

DroidSpeak: Uso compartido de caché KV para comunicación entre LLM y servicio multi-LLM

Recompensas intrínsecas en línea para los agentes que toman decisiones a partir de la retroalimentación de modelos de lenguaje amplios

Los modelos de lenguaje grandes generan demasiadas características simples para datos tabulares

Superar las frecuencias de decisión lentas en el control continuo: aprendizaje de refuerzo de secuencias basado en modelos para el control sin modelos

IdeaSynth: Desarrollo iterativo de ideas de investigación mediante la evolución y composición de facetas de ideas con retroalimentación basada en la literatura.

SEGURO: Conversación encarnada consciente de la semántica bajo la inconsciencia para el aprendizaje robótico permanente

Modelo de profundidad avanzada para la estimación monocular de profundidad no supervisada en endoscopia

SA-GDA: Aumento espectral para la adaptación del dominio gráfico

La sorpresa de GPT: ofrecer un chat de modelos de lenguaje extensos en una clase de codificación masiva redujo la participación pero aumentó el desempeño de los adoptantes en los exámenes

Aprendizaje de refuerzo fuera de línea restringido por estado

SimAD: un enfoque simple basado en disimilitud para la detección de anomalías en series temporales

Análisis de EDO unificado de algoritmos de aprendizaje Q suave

FairTargetSim: un simulador interactivo para comprender y explicar los efectos de equidad de la definición de la variable objetivo

Exploración de conocimiento con estado de grano fino: recuperación de grafos eficaz y eficiente con modelos de lenguaje grandes

Aprendizaje de modelos de acción de planificación numérica seguros

Aumento de la predicción del ángulo de dirección de extremo a extremo con datos del bus CAN

PASCUA: Integración de modelos heterogéneos basados en agregación. Entrenamiento en aprendizaje federado vertical.

GRAPES: Aprendiendo a muestrear gráficos para redes neuronales de gráficos escalables

Adquisición y adaptación de valores previos para nuevas tareas mediante metaarquitecturas neuronales

VerifyBench: un punto de referencia sistemático para evaluar verificadores de razonamiento en diferentes dominios

¿Son suficientes los datos escritos por humanos? El reto de enseñar razonamiento a los estudiantes de maestría en derecho sin aprendizaje por referencia ni destilación.

Trabajar con IA: medición de las implicaciones laborales de la IA generativa

Establecer las mejores prácticas para construir puntos de referencia de agencia rigurosos

Un marco agente para el modelado autónomo de metamateriales y el diseño inverso

Buscando la colisión: Generación en línea de escenarios críticos para la seguridad de la conducción autónoma con recuperación de modelos de lenguaje grande aumentados

BOOST: Arranque de programas de razonamiento basado en estrategias para la verificación de datos guiada por programas

La odisea del más apto: ¿pueden los agentes sobrevivir y seguir siendo buenos?

Razonamiento agéntico: un marco optimizado para mejorar el razonamiento LLM con herramientas agénticas

ZebraLogic: Sobre los límites de escala de los LLM para el razonamiento lógico

Evaluación de defensas multiagente contra ataques de jailbreak en modelos de lenguaje grandes

Created by

Haebom

Autor

María Carolina Cornelia Wit, Jun Pang

Describir

Este artículo investiga el uso de sistemas LLM multiagente como defensa contra ataques de jailbreak que eluden los mecanismos de seguridad de los grandes modelos de lenguaje (LLM). Evaluamos tres estrategias de jailbreak, incluyendo ataques de AutoDefense y BetterDan y JB de Deepleaps, y las comparamos con configuraciones de un solo agente, dos y tres agentes. Se ha demostrado que los sistemas multiagente mejoran la resistencia a los ataques de jailbreak, especialmente al reducir los falsos negativos, pero su efectividad varía según el tipo de ataque y conlleva desventajas, como un mayor número de falsos positivos y una mayor sobrecarga computacional. Concluimos señalando las limitaciones de las defensas automatizadas actuales y sugiriendo estrategias para mejorar la robustez de la alineación de los futuros sistemas LLM.

Takeaways, Limitations

•

Takeaways: Se demuestra que un sistema LLM multiagente es eficaz como mecanismo de defensa contra ataques de jailbreak de LLM, contribuyendo especialmente a reducir los falsos negativos.

•

Takeaways: Muestra que la efectividad de la defensa contra ataques de jailbreak usando un sistema multiagente varía dependiendo del tipo de ataque.

•

Limitations: Los sistemas multiagente introducen contrapartidas como un aumento de falsos positivos y sobrecarga computacional.

•

Limitations: Revela las limitaciones de los sistemas de defensa automatizados actuales y sugiere la necesidad de más investigaciones para mejorar la seguridad de los futuros sistemas LLM.

Made with Slashpage