Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

PRIX: Aprendiendo a planificar desde cero para la conducción autónoma de extremo a extremo

Swin-TUNA: Un novedoso enfoque PEFT para la segmentación precisa de imágenes de alimentos

EarthLink: Un agente de IA autoevolutivo para la ciencia del clima

Proxy de realidad: Interacciones fluidas con objetos del mundo real en realidad mixta mediante representaciones abstractas

Aprovechamiento de señales heterogéneas y de múltiples fuentes para la detección de fatiga

Bondad de pronunciación sin segmentación

Marco de estimación de pose relativa adaptativa con ajuste de ruido dual para maniobras de aproximación seguras

Coordinación compositiva para equipos multi-robot con modelos lingüísticos extensos

La difusión supera a la autorregresión en entornos con limitaciones de datos

El nuevo cuello de botella del LLM: una perspectiva sistémica sobre la atención latente y la mezcla de expertos

EndoControlMag: Ampliación robusta del movimiento vascular endoscópico con restablecimiento periódico de referencia y control jerárquico de doble máscara con reconocimiento de tejido

Redes neuronales de gráficos de larga y corta distancia y mejora del aprendizaje curricular para el reconocimiento de emociones en la conversación

Omni-Thinker: Escalamiento de la generalización entre dominios en LLM mediante aprendizaje a distancia multitarea con recompensas híbridas

GCC-Spam: Detección de spam mediante GAN, aprendizaje contrastivo y redes de similitud de caracteres

SDSC: Una métrica consciente de la estructura para el aprendizaje de la representación de señales semánticas

Los LLM multilingües no son pensadores multilingües: evidencia de la evaluación de analogías con hindi

Modulación de la atención dinámica de frecuencia para la predicción densa

Una encuesta sobre aprendizaje profundo para la resolución de problemas de geometría

Modelos de la Fundación EEG: Una revisión crítica del progreso actual y las direcciones futuras

Inversión-DPO: Post-entrenamiento preciso y eficiente para modelos de difusión

Un marco PBN-RL-XAI para descubrir una estrategia terapéutica de “golpe y fuga” en el melanoma

Prioridades de tareas: mejora de la evaluación del modelo al considerar todo el espacio de tareas posteriores

OrQstrator: Un marco impulsado por IA para la optimización avanzada de circuitos cuánticos

Un estudio exhaustivo de la clasificación de argumentos basada en LLM: desde LLAMA pasando por GPT-4o hasta Deepseek-R1

Indicadores mecanicistas de comprensión en modelos lingüísticos amplios

Adaptación del aprendizaje real a vídeos largos

Teleoperación bilateral rápida y aprendizaje por imitación mediante control de fuerza sin sensores mediante un modelo dinámico preciso

Autocodificadores enmascarados que perciben el corazón: revelando el sesgo de simplicidad en los análisis de ECG

SyncMapV2: Segmentación no supervisada robusta y adaptativa

Dinámica web LLM: Seguimiento del colapso del modelo en una red de LLM

¿Por qué se producen efectos de evaluación dependientes de la clase con la atribución de características de series temporales? Una investigación con datos sintéticos

Difuso y disperso: generación de imágenes con regularización de representación

LLM-D12: Una escala bidimensional de dependencias instrumentales y relacionales en grandes modelos lingüísticos

MambaNeXt-YOLO: Un modelo híbrido de espacio de estados para la detección de objetos en tiempo real

PALADIN: Huella neuronal robusta para modelos de difusión de texto a imagen

Aprendizaje de refuerzo en línea basado en resultados: algoritmos y límites fundamentales

Soluciones de aprendizaje automático integradas en una plataforma IoT de atención médica para la estratificación del riesgo de insuficiencia cardíaca

Más allá de la descomposición de bajo rango: un enfoque rápido para un aprendizaje eficiente en el dispositivo

Transformadores de visión en la agricultura de precisión: un estudio exhaustivo

PerceptionLM: Datos y modelos de acceso abierto para una comprensión visual detallada

Posición: Una teoría de la identificabilidad con base empírica acelerará la investigación sobre aprendizaje autosupervisado

LagKV: La información relativa al retraso de la caché KV indica qué tokens son importantes

Desencadenante sin rastro: Hacia un ataque de puerta trasera sigiloso en modelos de difusión de texto a imagen

Muestreo logit disperso: aceleración de la destilación del conocimiento en los LLM

Alineando la visión con el lenguaje: Construcción de gráficos de conocimiento multimodal sin anotaciones para un razonamiento mejorado en LLM

Adaptador Att: un adaptador de difusión T2I multiatributos, robusto y preciso, específico de dominio mediante un autocodificador variacional condicional

Cuando un gran modelo de visión y lenguaje se combina con imágenes de teledetección de gran tamaño: Poda de tokens guiada por texto de grueso a fino

Aprendizaje robusto de múltiples vistas mediante la fusión de la representación de la atención a nivel de muestra y la alineación de la perturbación simulada

Abordaje de la alucinación a partir de modelos condicionales para la reconstrucción de imágenes médicas con DynamicDPS

Aprendizaje automático cuántico en medicina de precisión y descubrimiento de fármacos: ¿Un cambio radical para los tratamientos personalizados?

Un modelo de lenguaje general para la identificación de péptidos

ExpliCa: Evaluación del razonamiento causal explícito en modelos lingüísticos amplios

EVEv2: Líneas de base mejoradas para modelos de visión y lenguaje sin codificador

Alineación LLM como optimización del recuperador: una perspectiva de recuperación de información

Pulse-PPG: Un modelo de código abierto de base PPG entrenado en campo para aplicaciones portátiles en entornos de laboratorio y de campo.

Mercado inmobiliario en línea

Aprendizaje y optimización integrados para la gestión de la congestión y la maximización de beneficios en el mercado eléctrico en tiempo real

Integración de evidencia en el diseño de sistemas de apoyo a la toma de decisiones basados en XAI e IA: un marco de medios y fines para usuarios finales en la construcción

Diseño de parámetros escalables para circuitos cuánticos superconductores con redes neuronales gráficas

Un estudio sobre la identificación de causalidad de eventos: taxonomía, desafíos, evaluación y perspectivas

Desclasificación de la máquina correctiva neuronal

Hacia una generalización médica multimodal universal en 3D mediante el aprendizaje de una representación invariante personalizada

Primitivas de variedad de movimiento diferenciables para la generación de movimiento reactivo bajo restricciones cinedinámicas

Ajuste fino de orden cero de LLM en subespacios aleatorios

RUMI: Hurgando con información mutua

Desclasificación de máquinas neuronales

VolDoGer: Conjuntos de datos asistidos por LLM para la generalización de dominios en tareas de visión y lenguaje

Detección de deriva conceptual no supervisada a partir de representaciones de aprendizaje profundo en tiempo real

Un marco de evaluación multifacético para evaluar datos sintéticos generados por grandes modelos lingüísticos

DualXDA: Hacia una atribución de datos dispersa, eficiente y explicable en grandes modelos de IA

Cuantificación de la singularidad y el carácter divisivo del discurso presidencial

DocTER: Evaluación de la edición de conocimiento basada en documentos

Aprendizaje de conceptos definibles en lógica de primer orden con conteo

Reconocimiento y obtención de perfiles de cruces simples débiles en árboles

Compliance Brain Assistant: IA conversacional y agente para asistir en tareas de cumplimiento en entornos empresariales

Aprendizaje de abstracciones temporales mediante homomorfismos variacionales en MDP abstractos inducidos por opciones

Cuando la autonomía se descontrola: preparándose para los riesgos de la colusión multiagente en los sistemas sociales

Un marco integrado de ingeniería rápida y gráficos de conocimiento multidimensionales para el análisis de disputas legales

DisMS-TS: Eliminación de características multiescala redundantes para la clasificación de series temporales

Corrompidos por el razonamiento: los modelos de lenguaje de razonamiento se convierten en oportunistas en los juegos de bienes públicos

Formación de haces y asignación de recursos para la minimización del retardo en sistemas OFDM asistidos por RIS

Influenciabilidad neurodivergente como solución contingente al problema de alineación de la IA

EducationQ: Evaluación de las capacidades docentes de los LLM mediante un marco de diálogo multiagente

SuperARC: una prueba agnóstica para inteligencia limitada, general y superinteligencia basada en los principios de compresión recursiva y probabilidad algorítmica

IPCGRL: Aprendizaje por refuerzo instruido por el lenguaje para la generación de niveles procedimentales

OR-LLM-Agent: Automatización del modelado y la resolución de problemas de optimización de investigación de operaciones con razonamiento LLM

El razonamiento químico en los LLM permite la planificación de síntesis con conciencia de estrategia y la elucidación del mecanismo de reacción.

BEARCUBS: Un referente para agentes web que utilizan ordenadores

De la hipótesis a la publicación: un estudio exhaustivo de los sistemas de apoyo a la investigación basados en IA

HPS: Muestreo de preferencias duras para la alineación de las preferencias humanas

Un método de recompensa diferenciada para algoritmos de toma de decisiones cooperativas de múltiples vehículos basados en aprendizaje de refuerzo

Recuperación de clases de órdenes causales con bases de conocimiento inconsistentes

Sobre la estructura de la procedencia de los juegos y sus aplicaciones

I-CEE: Adaptación de las explicaciones de los modelos de clasificación de imágenes a la experiencia del usuario

SIDA: Adaptación del dominio de disparo cero impulsada por imágenes sintéticas

Síntesis de software 3D guiada por representación intermedia expresiva de restricciones

Mudanza: colaboración entre humanos e IA con base física

SynC: Refinamiento del conjunto de datos de subtítulos de imágenes sintéticas con mapeo de uno a muchos para subtítulos de imágenes de disparo cero

Recuento aproximado de SMT más allá de dominios discretos

DRWKV: Enfoque en los bordes de los objetos para mejorar la imagen con poca luz

¿Por qué se producen efectos de evaluación dependientes de la clase con la atribución de características de series temporales? Una investigación con datos sintéticos

Created by

Haebom

Autor

Gregor Baer, Isel Grau, Chao Zhang, Pieter Van Gorp

Describir

Este artículo aborda los desafíos de evaluar métodos de atribución de características en IA explicable (XAI). Si bien los investigadores suelen basarse en métricas basadas en perturbaciones en ausencia de datos de verdad fundamental, estudios recientes han demostrado que dichas métricas pueden tener un rendimiento diferente entre las clases predichas dentro del mismo conjunto de datos. Este "efecto de evaluación dependiente de la clase" plantea preguntas sobre si el análisis de perturbaciones mide de forma fiable la calidad de la atribución y tiene implicaciones directas para el desarrollo y la fiabilidad de la evaluación de los métodos XAI. En este artículo, investigamos bajo qué condiciones se producen dichos efectos dependientes de la clase mediante experimentos controlados que utilizan datos sintéticos de series temporales con ubicaciones conocidas de características de verdad fundamental. Tras variar sistemáticamente los tipos de características y los contrastes de clase en una tarea de clasificación binaria, comparamos las puntuaciones de degradación basadas en perturbaciones con métricas de recuperación de precisión basadas en verdad fundamental utilizando múltiples métodos de atribución. Los resultados muestran que los efectos dependientes de la clase están presentes en ambos métodos de evaluación, incluso en escenarios simples con características localizadas temporalmente, debido a cambios fundamentales en la amplitud o la extensión temporal de las características. Es más, las métricas basadas en perturbaciones y las métricas de verdad fundamental suelen producir estimaciones contradictorias de la calidad de la atribución entre clases, y la correlación entre los métodos de evaluación es débil. Estos resultados sugieren que los investigadores deben interpretar las métricas basadas en perturbaciones con cautela, ya que podrían no siempre corresponder con la atribución, identificando correctamente las características distintivas. Al demostrar esta discrepancia, este estudio señala la necesidad de reconsiderar lo que miden realmente las evaluaciones de atribución y de desarrollar métodos de evaluación más rigurosos que capturen múltiples dimensiones de la calidad de la atribución.

Takeaways, Limitations

•

Takeaways:

◦

Presentar claramente las limitaciones de evaluar los métodos XAI utilizando únicamente métricas basadas en perturbaciones.

◦

Probar experimentalmente la existencia de efectos de evaluación dependientes de la clase y analizar sus causas.

◦

Planteando preguntas sobre la confiabilidad de los métodos de evaluación existentes y enfatizando la necesidad de desarrollar nuevos métodos de evaluación.

◦

El desarrollo y la evaluación de los métodos XAI sugieren la necesidad de un enfoque de evaluación más riguroso y multidimensional.

•

Limitations:

◦

El uso de datos sintéticos limita la generalización a conjuntos de datos del mundo real.

◦

Se necesitan experimentos adicionales en diferentes tipos de métodos y conjuntos de datos XAI.

◦

Ausencia de propuestas específicas para nuevos métodos de evaluación.

Ver PDF

Made with Slashpage