[공지사항]을 빙자한 안부와 근황

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Núcleo de fusión para optimización bayesiana en el espacio de permutación

Clasificación detallada de fracturas de muñeca pediátricas teniendo en cuenta la demografía

Recomendación generativa multidominio de múltiples objetivos

ParaStudent: Generar y evaluar código estudiantil realista enseñando a los LLM a esforzarse

Modelado de la cognición en mundo abierto como síntesis a demanda de modelos probabilísticos

EgoVLA: Aprendizaje de modelos de visión, lenguaje y acción a partir de vídeos de personas egocéntricas

Inversión-DPO: Post-entrenamiento preciso y eficiente para modelos de difusión

Una línea base simple para redes neuronales estables y plásticas

WildFX: Un pipeline basado en DAW para modelado gráfico de efectos de audio en la naturaleza

De KMMLU-Redux a KMMLU-Pro: un conjunto de referencia coreano profesional para la evaluación de LLM

Agent KB: Aprovechar la experiencia multidominio para la resolución de problemas agénticos

Cómo no detectar inyecciones inmediatas con un LLM

Críticas de los modelos mundiales

El papel de los grandes modelos de lenguaje en el diseño UI/UX: una revisión sistemática de la literatura

LearnLens: Retroalimentación personalizada, basada en el currículo y habilitada para LLM, con educadores involucrados

STACK: Ataques adversarios a los pipelines de protección de LLM

ZonUI-3B: Un modelo de lenguaje de visión ligero para la puesta a tierra de GUI de resolución cruzada

Comprensión del razonamiento en modelos de lenguaje de pensamiento mediante vectores de dirección

Redes neuronales agénticas: sistemas multiagente autoevolutivos mediante retropropagación textual

EvolveNav: Razonamiento corporal automejorable para la navegación visual-lingüística basada en LLM

TextDiffuser-RL: Optimización eficiente y robusta del diseño de texto para síntesis de texto a imagen de alta fidelidad

SpecMaskFoley: Dirigir un transformador generativo enmascarado espectral preentrenado hacia la síntesis sincronizada de video a audio mediante ControlNet

Exploración de representaciones gráficas de formas lógicas para el modelado del lenguaje

DeepSeek-Prover-V2: Avanzando en el razonamiento matemático formal mediante el aprendizaje por refuerzo para la descomposición de subobjetivos

ParaPO: Alineación de modelos lingüísticos para reducir la reproducción literal de datos previos al entrenamiento

DP2Unlearning: Un marco de desaprendizaje eficiente y garantizado para LLM

CDUPatch: Ataque de parche adversario universal basado en color para detectores de infrarrojo visible de doble modo

Práctica: Segmentación de signos individuales a partir de secuencias continuas

¿Podemos aliviar el cuello de botella de inyectividad en las variedades lorentzianas para redes neuronales gráficas?

Alinea tu ritmo: Genera poses de baile altamente alineadas con representación de características con reconocimiento del ritmo y mejoradas mediante puertas

HoH: Un punto de referencia dinámico para evaluar el impacto de la información obsoleta en la generación aumentada por recuperación

AIvaluateXR: Un marco de evaluación para la IA en dispositivos en XR con resultados de benchmarking

Un enfoque empírico de minimización de riesgos para el RL inverso fuera de línea y el modelo de elección discreta dinámica

Evaluación de la predicción de enlaces: nuevas perspectivas y recomendaciones

Aprender a razonar en la frontera de la aprendibilidad

Stonefish: Apoyo a la investigación del aprendizaje automático en robótica marina

Armonía en la divergencia: Hacia un ajuste fino de LLM de orden cero rápido, preciso y eficiente en memoria

Sobre la transferencia de conocimiento en algoritmos cuánticos

Legibilidad del código en la era de los grandes modelos de lenguaje: un estudio de caso industrial de Atlassian

Sesgo en la toma de decisiones para los dilemas éticos de la IA: un estudio comparativo de ChatGPT y Claude

ASTRID: un TRIaD automatizado y escalable para la evaluación de sistemas de respuesta a preguntas clínicas basados en RAG

Coherencia de las respuestas y continuaciones generadas por grandes modelos lingüísticos en las redes sociales

Del código al cumplimiento: evaluación de la utilidad de ChatGPT en el diseño de una página web accesible: un estudio de caso

Razonamiento temporal para el resumen de la línea de tiempo en las redes sociales

Ataques de puerta trasera textuales invisibles basados en doble activación

Hacia el descubrimiento científico con el aprendizaje de diccionarios: extracción de conceptos biológicos de modelos básicos de microscopía

Preentrenamiento en dos etapas para la predicción de propiedades moleculares en la naturaleza

Hacia el funcionamiento práctico de agentes de aprendizaje de refuerzo profundo en la gestión de redes del mundo real en los bordes de RAN abierta

Un enfoque para la generación automática de funciones de etiquetado para chatbots de ingeniería de software

Conectando el conocimiento local y global mediante Transformers en los juegos de mesa

Pérdida de entropía: un amplificador de interpretabilidad de la red de detección de objetos 3D para la conducción inteligente

FBSDiff: Sustitución de bandas de frecuencia plug-and-play de características de difusión para una traducción de imágenes basada en texto altamente controlable

Sobre el preentrenamiento de modelos de lenguaje multimodal personalizados para la comprensión de gráficos

Métodos de base visual para una interacción eficiente con interfaces gráficas de usuario de escritorio

Instruct-MusicGen: Desbloqueo de la edición de texto a música para modelos de lenguaje musical mediante el ajuste de instrucciones

Meta4XNLI: Un corpus paralelo translingüístico para la detección e interpretación de metáforas

SecurePose: Difuminado automático de rostros y extracción cinemática del movimiento humano a partir de vídeos grabados en entornos clínicos

Muestreo DDIM mejorado con mezclas gaussianas de coincidencia de momentos

Realidad virtual con seguimiento ocular: un estudio exhaustivo sobre métodos y desafíos de privacidad

De las raíces a las recompensas: razonamiento dinámico de árboles con RL

Iluminando los tres dogmas del aprendizaje por refuerzo bajo la luz evolutiva

Análisis del espacio de instancias del problema de enrutamiento de vehículos capacitados

LLM multiagente como defensores de la ética para sistemas basados en IA

GATSim: Simulación de movilidad urbana con agentes generativos

Razonamiento sobre la incertidumbre: ¿Los modelos de razonamiento saben cuándo no saben?

La ilusión del pensamiento: comprender las fortalezas y limitaciones de los modelos de razonamiento a través de la lente de la complejidad del problema

Reflectivismo estratégico en sistemas inteligentes

SafeAgent: Protección de agentes LLM mediante un simulador de riesgos automatizado

¿Qué diablos es la Inteligencia General Artificial?

Hacia la era del razonamiento: un estudio de las largas cadenas de pensamiento para razonar con modelos de lenguaje grandes

De las palabras a las colisiones: evaluación guiada por LLM y generación adversarial de escenarios de conducción críticos para la seguridad

¿Codificar o no codificar? Integración de herramientas adaptativas para modelos de lenguaje matemático mediante expectativa-maximización.

BLAST: Un ataque sigiloso de puerta trasera contra sistemas cooperativos multiagente basados en aprendizaje de refuerzo profundo

UniEmoX: Preentrenamiento a gran escala guiado semánticamente y transmodal para la percepción universal de emociones en escenas

CorMulT: Un transformador multimodal semisupervisado que tiene en cuenta la correlación de modalidades para el análisis de sentimientos

Hacia el aprendizaje de la representación causal temporal con descomposición tensorial

Redes de Kolmogorov Arnold (KAN) para datos desequilibrados: una perspectiva empírica

NoHumansRequired: Edición de imágenes autónoma de alta calidad y minería de tripletes

Lecciones del programa TREC de Adaptación en lenguaje sencillo de resúmenes biomédicos (PLABA)

Validación multicéntrica de un modelo de aprendizaje profundo para la evaluación de la escoliosis

El vínculo entre la emoción y la memoria: ¿Son importantes las anotaciones de memorabilidad para los sistemas inteligentes?

DENSE: Generación longitudinal de notas de progreso con modelado temporal de notas clínicas heterogéneas en visitas hospitalarias

Inteligencia de borde con redes neuronales de punta

VLA-Mark: una marca de agua intermodal para un modelo de alineación de visión y lenguaje de gran tamaño

La modulación de ganancia inspirada en el noradrenérgico atenúa la brecha de estabilidad en el entrenamiento articular

Un optimizador de serpiente mejorado y de múltiples estrategias para la planificación de rutas de UAV tridimensionales y problemas de ingeniería

Plataforma de tejido fotónico para aceleradores de IA

OrthoInsight: Diagnóstico de fracturas costales y generación de informes basados en modelos multimodales de gran tamaño

CSD-VAR: Descomposición de estilo de contenido en modelos autorregresivos visuales

Una red neuronal de percepción de agarre de robot segmentado para IA de borde

Superinteligencia de abajo hacia arriba específica del dominio: un gráfico de conocimiento confiable es lo que necesitamos

DUALRec: Un marco híbrido de modelos secuenciales y de lenguaje para la recomendación de películas según el contexto

Aprovechar el efecto de primacía para mejorar los modelos de lenguaje grandes

Pronóstico generalista con modelos de vídeo congelado mediante difusión latente

Transformaciones convergentes de la representación visual en cerebros y modelos

Preimpresión: ¿Acabo de visitar un sitio web escrito por doctores en derecho?

Las palancas de la persuasión política con IA conversacional

Clasificación de textos según inclinación política y politicidad

Aprendizaje autosupervisado sobre datos de expresión genética

Uso de LLM para identificar características de habilidades personales y profesionales en una prueba de juicio situacional de respuesta abierta

STACK: Ataques adversarios a los pipelines de protección de LLM

Created by

Haebom

Autor

Ian R. McKenzie, Oskar J. Hollinsworth, Tom Tseng, Xander Davies, Stephen Casper, Aaron D. Tucker, Robert Kirk, Adam Gleave

Describir

Este artículo analiza los últimos desarrollos en IA que utilizan múltiples capas de protección para proteger contra el uso indebido catastrófico de sistemas de IA de vanguardia. Observamos que la seguridad de las secuencias de protección de varios desarrolladores, incluido el modelo Claude 4 Opus de Anthropic, es incierta y que existe una falta de investigación previa sobre su evaluación y ataque. Este artículo busca abordar esta deficiencia mediante el desarrollo de una secuencia de protección de código abierto y su implementación en red-team. Desarrollamos un novedoso clasificador de entrada y salida basado en indicaciones de pocos intentos que supera al modelo de protección de vanguardia existente, ShieldGemma, y presentamos una novedosa técnica de ataque denominada Ataque por Etapas (STACK), que logra una tasa de éxito significativa incluso en un entorno de caja negra. Finalmente, presentamos mitigaciones que los desarrolladores pueden utilizar para prevenir ataques por etapas.

Takeaways, Limitations

•

Takeaways:

◦

Un clasificador de entrada y salida basado en indicaciones de unos pocos disparos supera a los modelos de seguridad de última generación existentes.

◦

Demuestra la posibilidad de realizar ataques efectivos a tuberías de dispositivos de seguridad de última generación utilizando la técnica de ataque por etapas (STACK).

◦

Al demostrar la posibilidad de ataques en un entorno de caja negra, presentamos claramente la vulnerabilidad de los dispositivos de seguridad de IA.

◦

Proporciona medidas de mitigación específicas para prevenir ataques organizados.

•

Limitations:

◦

Se necesitan más investigaciones para determinar la eficacia de las medidas de mitigación propuestas actualmente.

◦

Se necesitan más investigaciones sobre la generalización entre diferentes modelos de IA y canales de seguridad.

◦

Se necesita una mayor validación de las tasas de éxito de los ataques en entornos del mundo real.

Ver PDF

Made with Slashpage