Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Las utilidades individuales de la satisfacción con la vida revelan una aversión a la desigualdad no relacionada con la alineación política

DischargeSim: Un modelo de simulación para la comunicación educativa médico-paciente en el momento del alta

Regularización de gaussianidad basada en espectros de momento y potencia para modelos de texto a imagen

Concepto computacional de la psique (en ruso)

MachineLearningLM: Escalado del aprendizaje contextual de múltiples disparos mediante preentrenamiento continuo

La frontera de la eficiencia: sombras clásicas versus imágenes cuánticas

BranchGRPO: GRPO estable y eficiente con ramificación estructurada en modelos de difusión

Cuantificación de la incertidumbre en modelos probabilísticos de aprendizaje automático: teoría, métodos y perspectivas

CURE: Desaprendizaje controlado para incrustaciones robustas: mitigación de atajos conceptuales en modelos de lenguaje preentrenados

Revelando precursores ocultos de terremotos mediante una transformación del ruido sísmico sensible al estrés

ASE: Un punto de referencia a nivel de repositorio para evaluar la seguridad en el código generado por IA

Comportamientos y preferencias subjetivas en LLM: Lenguaje de navegación

Más allá de diez turnos: Desbloqueo de la búsqueda agente de largo plazo con aprendizaje automático asincrónico a gran escala

SGDFuse: Difusión guiada por SAM para fusión de imágenes infrarrojas y visibles de alta fidelidad

Modelos lingüísticos de autocuestionamiento

MetaExplainer: Un marco para generar explicaciones multitipo centradas en el usuario para sistemas de IA

¿Cómo deberíamos metaaprender los algoritmos de aprendizaje de refuerzo?

Evaluación integral de prototipos de redes neuronales

HIRAG: Pensamiento jerárquico, instrucción, ajuste, recuperación y generación aumentada

CyberRAG: una herramienta de clasificación y generación de informes de ciberataques de Agentic RAG

Aprendizaje de refuerzo jerárquico multiescala temporal para el comportamiento unificado y el control de la conducción autónoma

Un modelo de representación no lineal de bajo rango con red neuronal convolucional para la imputación de datos de calidad del agua

VIDEO: Descomposición, ejecución y evaluación visual e interactiva de análisis de texto con agentes inteligentes

Difusión discreta en lenguajes extensos y modelos multimodales: un estudio

De la defensa estática a la adaptativa: defensa de objetivos móviles basada en aprendizaje de refuerzo profundo multiagente federado contra ataques DoS en redes de enjambre de UAV

¿Qué tan lejos estamos de la eficiencia óptima del razonamiento?

¿Quiénes son los nombres mencionados? Auditoría de las recomendaciones académicas basadas en el Máster en Derecho (LLM)

Criterios de detención para la iteración de valor en juegos concurrentes de alcanzabilidad y seguridad estocástica

Su modelo de lenguaje puede escribir en secreto como los humanos: ataques de paráfrasis contrastiva en detectores de texto generados por LLM

Ingeniería de aviso previo para el ajuste fino del refuerzo

Los grandes errores del modelo lingüístico surgen de la alucinación de características críticas del problema

CoT-RAG: Integración de la cadena de pensamiento y la recuperación-generación aumentada para mejorar el razonamiento en modelos lingüísticos extensos

TransitReID: Recopilación de datos de tránsito OD con reidentificación dinámica de pasajeros resistente a la oclusión

TerraMind: Multimodalidad generativa a gran escala para la observación de la Tierra

Bucles de entrenamiento recursivos en LLM: ¿Cómo las propiedades de los datos de entrenamiento modulan el cambio de distribución en los datos generados?

Escalado de modelos de lenguaje de vídeo a 10 000 fotogramas mediante destilación diferencial jerárquica

Un enfoque basado en la teoría de decisiones para abordar la incertidumbre en la mecánica cuántica

VIPER: Percepción visual y razonamiento explicable para la toma de decisiones secuencial

LED: Detección de objetos de vocabulario abierto mejorado LLM sin generación de datos seleccionados por humanos

Reangle-A-Video: Generación de vídeo 4D como traducción de vídeo a vídeo

Ver un mundo en una chispa de neurona: desenredar la interferencia multitarea para la fusión de modelos sin entrenamiento

UAR-NVC: Un marco autorregresivo unificado para la compresión de vídeo neuronal con memoria eficiente

MPO: Impulsando a los agentes LLM con la optimización del metaplan

¡Presta atención a las perturbaciones del mundo real! Evaluación de la robustez natural en la comprensión lectora de máquinas.

Un modelo de lenguaje general para la identificación de péptidos

Más allá de los datos vistos: mejora de la generalización de KBQA mediante la generación de formas lógicas guiadas por esquemas

CoAT: Marco de cadena de pensamientos asociados para mejorar el razonamiento de modelos lingüísticos amplios

Cuidado con la brecha entre valor y acción: ¿Los LLM actúan en consonancia con sus valores?

Reparación de trayectorias conforme a las normas de tráfico mediante teorías de módulos de satisfacibilidad y análisis de alcanzabilidad

QR-VC: Aprovechamiento de los residuos de cuantificación para el desenredo lineal en la conversión de voz de disparo cero

IA generativa para la ampliación de datos en redes inalámbricas: análisis, aplicaciones y estudio de caso

Inversión de compresión de rango dinámico mejorada neuronalmente: un enfoque híbrido para restaurar la dinámica del audio

La búsqueda del mediador adecuado: un estudio de la interpretabilidad mecanicista a través del análisis de la mediación causal

PriorCLIP: Modelo visual de visión y lenguaje guiado por prior para la recuperación de imágenes y texto mediante teledetección

Un enfoque transformador para la previsión de precios de la electricidad

FedComLoc: Entrenamiento distribuido de modelos dispersos y cuantificados con comunicación eficiente

PQMass: Evaluación probabilística de la calidad de los modelos generativos mediante la estimación de masa de probabilidad

HiPhO: ¿Qué tan lejos están los (M)LLM de los humanos en el último punto de referencia de las Olimpiadas de Física de la escuela secundaria?

Hacia un soporte de decisiones explicable mediante modelos neuronales híbridos para la automatización de terminales logísticas

BlendedNet: un conjunto de datos de aeronaves con fuselaje de ala combinada y un modelo sustituto para predicciones aerodinámicas

Eso es tan FETCH: Creación de técnicas de conjunto para la clasificación LLM en admisión y derivación legal civil

Leyes de Murphy sobre la alineación de la IA: Por qué la brecha siempre gana

Monitoreo adaptativo y evaluación en el mundo real de sistemas de IA con agentes

Reduciendo la brecha en la IA oftálmica: conjunto de datos MM-Retinal-Reason y el modelo OphthaReason hacia el razonamiento multimodal dinámico

Comprender la atención visual detrás de la navegación de vehículos aéreos no tripulados (UAV) inspirada en las abejas

Trabajar con IA: medición de la aplicabilidad de la IA generativa a las ocupaciones

Escalamiento de la planificación LLM: NL2FLOW para la generación de problemas paramétricos y la evaluación rigurosa

Finalización de gráficos de conocimiento basados en el contexto con paso de mensajes relacionales con conciencia semántica

Aprendizaje relacional de pocos intentos aumentado con metasemántica

Perovskite-LLM: Modelos de lenguaje grande basados en el conocimiento para la investigación de células solares de perovskita

Gráficos de conocimiento asociativo para el almacenamiento y la recuperación eficientes de secuencias

Planificación epistémica limitada por profundidad

Una encuesta sobre aprendizaje de refuerzo para modelos de razonamiento de gran tamaño

Hacking de modelos de lenguaje grandes: cuantificación de los riesgos ocultos del uso de LLM para la anotación de texto

QCardEst/QCardCorr: Estimación y corrección de la cardinalidad cuántica

Destilación de fusión de pensamientos

MoVoC: Construcción de subpalabras con morfología para lenguajes Geez Script

Escalando la verdad: la paradoja de la confianza en la verificación de datos con IA

PianoVAM: Un conjunto de datos multimodal de interpretación de piano

Un marco de aprendizaje profundo integral para el diagnóstico de arsenicosis mediante imágenes de piel capturadas con dispositivos móviles

Uso de IA para optimizar la transferencia de pacientes y la utilización de recursos durante incidentes con muchas víctimas: una plataforma de simulación

AgentGym-RL: Formación de agentes LLM para la toma de decisiones a largo plazo mediante aprendizaje de refuerzo multiturno

Aprendizaje de flujos turbulentos con modelos generativos: superresolución, pronóstico y reconstrucción de flujo disperso

FinZero: Lanzamiento de un pronóstico de series temporales financieras multimodales con un modelo de razonamiento amplio

DEQuifica tu campo de fuerza: Simulaciones más eficientes utilizando modelos de equilibrio profundo

X-Teaming Evolutionary M2S: Descubrimiento automatizado de plantillas de jailbreak de múltiples turnos a turnos únicos

Explicabilidad de los modelos de clasificación basados en CNN para señales acústicas

TANGO: Navegación con capacidad de transitabilidad y control métrico local para objetivos topológicos

Una arquitectura en capas para el análisis de registros en sistemas de TI complejos

Reformulando el algoritmo de avance hacia adelante con un objetivo basado en la similitud

Reconocimiento de lenguaje de señas basado en esqueletos mediante una red convolucional de gráficos dinámicos espacio-temporales de doble flujo

Aprendizaje robusto de políticas de estados de creencias para el enrutamiento de redes cuánticas en condiciones de decoherencia y variación temporal

Arquitectura de agentes LLM resilientes: una guía para implementar de forma segura y planificar y luego ejecutar

RoentMod: Un modelo sintético de modificación de rayos de tórax X-para identificar y corregir los atajos del modelo de interpretación de imágenes

UOPSL: Aprendizaje de sitios de predilección OCT no pareados para el aumento del diagnóstico por imágenes del fondo de ojo

OTESGN: Redes de grafos sintáctico-semánticos mejorados con transporte óptimo para el análisis de sentimientos basado en aspectos

Clasificación de comportamientos de movimiento de 24 horas a partir de datos de acelerómetros de muñeca: desde funciones artesanales hasta técnicas de aprendizaje profundo

Memorización en grandes modelos lingüísticos en medicina: prevalencia, características e implicaciones

Interpretabilidad como alineación: hacer de la comprensión interna un principio de diseño

MESH - Entendiendo los videos como humanos: Medición de alucinaciones en modelos de video grandes

MESH - Entendiendo los videos como humanos: Medición de alucinaciones en modelos de video grandes

Created by

Haebom

Autor

Garry Yang, Zizhe Chen, Man Hon Wong, Haoyu Lei, Yongqiang Chen, Zhenguo Li, Kaiwen Zhou, James Cheng

Describir

Este artículo propone MESH, un nuevo modelo de referencia para la evaluación sistemática de alucinaciones en modelos de video a gran escala (MVE). Para superar las limitaciones de los modelos existentes, MESH utiliza un enfoque de preguntas y respuestas para evaluar objetos básicos, características detalladas y pares sujeto-acción de forma multicapa. Este enfoque imita el proceso humano de comprensión de video, con el objetivo de identificar con mayor precisión las causas de las alucinaciones en MVE. Los resultados experimentales demuestran que, si bien los MVE son hábiles para reconocer objetos y características básicas, su tasa de alucinaciones aumenta significativamente en escenas que contienen información detallada o acciones complejas de múltiples sujetos.

Takeaways, Limitations

•

Takeaways:

◦

Superando las limitaciones de los métodos de evaluación de alucinaciones en vídeo que se basan en métodos de clasificación manual existentes, presentamos nuevos criterios de evaluación que reflejan los procesos de percepción humana.

◦

Desarrollo de un modelo MESH de referencia para analizar exhaustivamente el problema de alucinaciones de LVM e identificar con mayor precisión sus causas.

◦

Presentar claramente las fortalezas y debilidades de LVM para sugerir futuras direcciones de desarrollo del modelo.

•

Limitations:

◦

Se necesita una validación adicional del rendimiento de generalización del punto de referencia MESH.

◦

Falta de presentación de resultados de evaluación para varios tipos de LVM.

◦

Existe la posibilidad de que no refleje perfectamente la complejidad de los datos de vídeo reales.

Made with Slashpage