Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Destilación de fusión de pensamientos

OTESGN: Redes de grafos sintáctico-semánticos optimizados para el transporte para el análisis de sentimientos basado en aspectos

MESH - Entendiendo los videos como humanos: Medición de alucinaciones en modelos de video grandes

Adaptación de modelos de visión y lenguaje para la clasificación de eventos de neutrinos en física de altas energías

Aprendizaje por refuerzo inverso multiagente guiado por simetría

AU-Harness: Un kit de herramientas de código abierto para la evaluación integral de LLM de audio

Aprendizaje de pocos disparos explicable y guiado por expertos para el diagnóstico por imágenes médicas

Hacia un enrutamiento generalizado: orquestación de modelos y agentes para una inferencia adaptativa y eficiente

MachineLearningLM: Escalado del aprendizaje contextual de múltiples disparos mediante preentrenamiento continuo

Demostración: Healthcare Agent Orchestrator (HAO) para el resumen de pacientes en paneles de tumores moleculares

Enfoque mediante atención contrastiva: mejora del razonamiento visual de los VLM

Más allá del horizonte previo al servicio: inculcar un comportamiento en el servicio para mejorar la previsión del riesgo financiero

Sobre la síntesis de expresiones regulares cronometradas

TinyDef-DETR: Un marco basado en DETR para la detección de defectos en líneas de transmisión a partir de imágenes de UAV

LiDAR-BIND-T: Traducción y fusión de modalidades de sensores mejorada y temporalmente consistente para aplicaciones robóticas

De la visión a la validación: construcción basada en teoría y datos de un índice de adopción de IA específico del CCG

Una guía completa sobre la privacidad diferencial: de la teoría a las expectativas del usuario

La arquitectura de la transformación de la IA: cuatro patrones estratégicos y una frontera emergente

FLM-Audio: Natural Monologues mejora los chatbots nativos full-duplex mediante entrenamiento dual

Clasificación de partículas de roca basada en aprendizaje profundo mediante ConvNeXt mejorado con atención

La dinámica de la información de la difusión generativa

Emulación de esténcil neuronal de pocos disparos aumentada con datos para la identificación de sistemas de modelos informáticos

Optimización de la política de expectativas grupales para el aprendizaje de refuerzo heterogéneo

Conformistas preentrenados para la toma de huellas y recuperación de audio

Hacia un entrenamiento escalable para el reconocimiento de expresiones matemáticas manuscritas

Comprender teóricamente el aprendizaje en contexto basado en transformadores para optimizar CSMA

Klear-CodeTest: Generación escalable de casos de prueba para el aprendizaje por refuerzo de código

HiD-VAE: Recomendación generativa interpretable mediante identificadores semánticos jerárquicos y desenredados

MagicGUI: un agente GUI móvil fundamental con canalización de datos escalable y ajuste de refuerzo

Villa-X: Mejora del modelado de la acción latente en modelos de visión-lenguaje-acción

Un nuevo alumno en el aula: Explorando las percepciones de los estudiantes sobre los asistentes de codificación de IA

¿Pueden los modelos de lenguaje grandes comprender y aplicar las regulaciones de patentes para aprobar un examen práctico de abogado de patentes?

Aprendizaje por difusión y refuerzo con conocimiento de incertidumbre para la localización del plano articular y el diagnóstico de anomalías en ecografía 3D

Estimación de la incertidumbre mediante la percepción humana frente a modelos neuronales

Homología persistente de redes temáticas para la predicción de la curiosidad del lector

La tarea importa: los requisitos de conocimiento dan forma a las respuestas de LLM al conflicto entre contexto y memoria

Predicción de la trayectoria de grietas con aprendizaje de operadores mediante la generación de datos del sistema de partículas discretas

Redes neuronales de gráficos de difusión para la robustez en sensores de olfato y conjuntos de datos

MM-Prompt: Ajuste de indicaciones multimodales para la respuesta visual continua a preguntas

Un grafo basado en ontologías RAG para normas jurídicas: un enfoque estructural, temporal y determinista

Combatiendo la falsificación de vídeos de voz con firmas ópticas en vivo (versión extendida)

Salida temprana y destilación de conocimiento en múltiples etapas en VLM para resúmenes de video

Desafíos críticos y directrices en la evaluación de datos tabulares sintéticos: una revisión sistemática

Parásito: un marco de ataque de puerta trasera basado en esteganografía para modelos de difusión

Hacia una optimización adaptativa basada en la memoria para una recuperación mejorada y una generación aumentada

Ramificación controlada por entropía para un razonamiento eficiente en tiempo de prueba

SWI: Hablar con intención en modelos lingüísticos amplios

Aprendizaje federado robusto bizantino mediante redes generativas antagónicas

Agente VeriSafe: Protección del agente de GUI móvil mediante la verificación de acciones basada en lógica

MENTE: Hacia una Sanación Psicológica Inmersiva con Diálogo Interno Multiagente

V-HOP: Seguimiento de la posición de objetos viso-hápticos en 6D

EgoAgent: Un modelo de agente predictivo conjunto en mundos egocéntricos

Identificación de biomarcadores basada en el conocimiento para datos de ARN-Seq de células individuales sin etiquetas: una perspectiva de aprendizaje por refuerzo

MERaLiON-SpeechEncoder: Hacia un modelo de base del habla para Singapur y el resto del mundo

RED: Liberar recompensas a nivel de token a partir de comentarios holísticos mediante la redistribución de recompensas

IDEATOR: Liberación y evaluación comparativa de grandes modelos de lenguaje de visión que se utilizan a sí mismos

DeepVoting: Aprendizaje y perfeccionamiento de reglas de votación con incrustaciones canónicas

Repensando el desenredo bajo factores dependientes de variación

Descubrimiento de leyes físicas con enumeración simbólica paralela

Aumento semántico en imágenes mediante el lenguaje

Colusión algorítmica por grandes modelos de lenguaje

Una lógica de coalición mínima

Aprendizaje de refuerzo profundo para redes de inventario: hacia una optimización confiable de políticas

Manejo de inconsistencias en bases de datos priorizadas con restricciones universales: análisis de complejidad y vínculos con restricciones de integridad activa

Alineación directa de la trayectoria de difusión completa con la preferencia humana de grano fino

CogGuide: Guía similar a la humana para razonamiento omnimodal de disparo cero

TreeGPT: Arquitectura de codificador-decodificador TreeFFN puro para razonamiento estructurado sin mecanismos de atención

Robix: Un modelo unificado para la interacción, el razonamiento y la planificación de robots

KROMA: Coincidencia de ontologías con recuperación de conocimiento y modelos lingüísticos extensos

Escalamiento de la planificación LLM: NL2FLOW para la generación de problemas paramétricos y la evaluación rigurosa

Optimización de la compresión de longitud en modelos de razonamiento grandes

LLM para el control sensoriomotor: Combinando el aprendizaje contextual e iterativo

Justicia consciente del esfuerzo: Incorporación de una noción de esfuerzo basada en la filosofía y centrada en el ser humano en las métricas de justicia algorítmica

Simulación de actividades cotidianas similares a las humanas con autonomía impulsada por el deseo

Mejora del aprendizaje por transferencia de pocos intentos con un ajuste optimizado de indicaciones multitarea mediante la composición modular de indicaciones

ButterflyQuant: cuantificación LLM de bits ultrabajos mediante transformadas ortogonales de mariposa aprendibles

CDE: Exploración impulsada por la curiosidad para un aprendizaje de refuerzo eficiente en modelos lingüísticos amplios

SimpleVLA-RL: Escalado del entrenamiento VLA mediante aprendizaje por refuerzo

Aprendizaje de refuerzo adaptativo, justo y fuera de línea, guiado por la viabilidad para la gestión de la atención de Medicaid

Recuperación-Generación aumentada para una interpretación fiable del Reglamento de Radiocomunicaciones

Explicación de la deriva conceptual a través de la evolución de los contrafácticos grupales

LoCoBench: Un punto de referencia para modelos de lenguaje extensos de contexto largo en ingeniería de software compleja

Aprendizaje mecanicista con modelos de difusión guiada para predecir el crecimiento espaciotemporal de tumores cerebrales

Alineación de gráficos mediante codificación espectral de doble paso y comunicación del espacio latente

ObjectReact: Aprendizaje del control relativo a objetos para la navegación visual

Fluido pero insensible: Los puntos ciegos emocionales de los modelos lingüísticos

Atributos invisibles, sesgos visibles: exploración de los atajos demográficos en la clasificación de la enfermedad de Alzheimer basada en la resonancia magnética

Un optimizador de competencia educativa mejorado con operadores de aprendizaje de covarianza múltiple para problemas de optimización global

Mejora del entrenamiento del transformador de difusión de vídeo mediante fusión y alineación de múltiples funciones desde codificadores de visión autosupervisados

Un algoritmo RIME modificado con aprendizaje de covarianza y mejora de la diversidad para la optimización numérica

Hacia una correspondencia explicable entre títulos de trabajo: aprovechando la relación semántica textual y los gráficos de conocimiento

IA explicable para la obtención acelerada de imágenes de microestructuras: un protocolo guiado por SHAP en el escáner Connectome 2.0

Incorporación de la notificación de incidentes de IA en la legislación y las políticas de telecomunicaciones: Perspectivas desde la India

OpenFake: Un conjunto de datos abiertos y una plataforma para la detección de deepfakes a gran escala

Los piratas necesitan un mapa: robar semillas ayuda a robar indicaciones

Segmentación de gliomas eficiente en el uso de recursos en la resonancia magnética subsahariana

ENSI: Inferencia segura, no interactiva y eficiente para modelos de lenguaje grandes

Seguimos haciéndolo (todo) mal: sistemas de recomendación, quince años después

Los LLM no conocen sus propios límites de decisión: la falta de fiabilidad de las explicaciones contrafácticas autogeneradas

MetaLLMix: un enfoque basado en metaaprendizaje LLM asistido por XAI para la optimización de hiperparámetros

Los piratas necesitan un mapa: robar semillas ayuda a robar indicaciones

Created by

Haebom

Autor

Felix Machtle, Ashwath Shetty, Jonas Sander, Nils Loose, Søren Pirk, Thomas Eisenbarth

Describir

Este artículo estudia los ataques de suplantación de indicaciones en modelos de difusión de generación de texto a imagen. Destacamos las debilidades de los métodos existentes de recuperación de indicaciones basados en optimización numérica y enfatizamos la importancia de los números aleatorios iniciales utilizados durante la generación de imágenes. Al explotar una vulnerabilidad (CWE-339) debido a valores de semilla limitados (2 32 ) en la generación de números aleatorios basada en CPU de PyTorch, demostramos experimentalmente que los valores de semilla para aproximadamente el 95% de las imágenes en la plataforma CivitAI pueden recuperarse en 140 minutos utilizando una herramienta llamada SeedSnitch. Con las semillas recuperadas, proponemos PromptPirate, un método de suplantación de indicaciones basado en algoritmos genéticos que logra una similitud LPIPS entre un 8% y un 11% mayor que los métodos de vanguardia existentes (PromptStealer, P2HP y CLIP-Interrogator). Por último, presentamos contramedidas efectivas para neutralizar la suplantación de indicaciones basadas en semillas y optimización y revelamos nuestros esfuerzos de colaboración con desarrolladores relevantes para abordar estas vulnerabilidades.

Takeaways, Limitations

•

Takeaways:

◦

Demostración de la gravedad del secuestro rápido en la generación de imágenes basada en modelos de difusión.

◦

Se descubrió y explotó una nueva vulnerabilidad (CWE-339) debido a las limitaciones de generación de números aleatorios de PyTorch.

◦

Presentamos una técnica de ataque de secuestro rápido (PromptPirate) que mejora el rendimiento con respecto a los métodos existentes.

◦

Presentando contramedidas efectivas contra ataques de secuestro rápido.

◦

Esfuerzos para resolver vulnerabilidades a través de la colaboración con los desarrolladores basados en los resultados de la investigación.

•

Limitations:

◦

La eficacia de SeedSnitch puede estar limitada a los datos de la plataforma CivitAI.

◦

Se necesitan más investigaciones sobre la aplicación práctica y la eficacia de las contramedidas propuestas.

◦

Se requiere análisis de vulnerabilidad de otras plataformas de generación de imágenes o métodos de generación de números aleatorios.

Ver PDF

Made with Slashpage