Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

VeOmni: Escalabilidad del entrenamiento de modelos de cualquier modalidad con un zoológico de recetas distribuidas centradas en modelos

Dynaword: De conjuntos de datos de una sola toma a conjuntos de datos de desarrollo continuo

Pronóstico Cuándo pronosticar: Aceleración de los modelos de difusión con Taylor controlado por confianza

Proof2Hybrid: Síntesis automática de referencias matemáticas para problemas centrados en la prueba

Cadena colaborativa de agentes para la sinergia del conocimiento recuperado paramétrico

BlockA2A: Hacia una interoperabilidad segura y verificable entre agentes

SpectrumWorld: Fundación de Inteligencia Artificial para la Espectroscopia

Gestión de la escalada en modelos de lenguaje grandes listos para usar

FGBench: Un conjunto de datos y punto de referencia para el razonamiento de propiedades moleculares a nivel de grupo funcional en modelos de lenguaje grandes

Un mapeo fundacional de Schema.org para un grafo de conocimiento legal: Representación de las normas jurídicas brasileñas según las FRBR

D3: Detección de vídeo generada por IA sin entrenamiento mediante características de segundo orden

SMART-Editor: Un marco multiagente para la edición de diseños con integridad estructural y de forma similar a la humana

Fusión de visión y lenguaje para la conducción autónoma en tiempo real: atención cruzada centrada en el objetivo de la cámara, el mapa HD y los puntos de referencia

MoCHA: Razonamiento avanzado de visión y lenguaje con conector MoE y atención grupal jerárquica

Impulse la destilación de conjuntos de datos autosupervisados mediante parametrización, aumento predefinido y aproximación

Memorización en modelos de lenguaje grandes y precisos

Del entrelazamiento a la alineación: descomposición del espacio de representación para la adaptación del dominio de series temporales no supervisadas

El Xeno Sutra: ¿Se puede atribuir significado y valor a un texto “sagrado” generado por inteligencia artificial?

Aprendizaje posterior a la finalización de los modelos lingüísticos

Ruido arcoíris: Prueba de estrés de detectores multimodales de memes dañinos en contenido LGBTQ

Agarre volumétrico equivalente

SemiSegECG: Un punto de referencia multiconjunto de datos para la segmentación semántica semisupervisada en la delimitación de ECG

FedSA-GCL: Un marco de aprendizaje de gráficos federados semiasincrónico con agregación personalizada y difusión con reconocimiento de clústeres

Las altas tasas de aprendizaje logran simultáneamente robustez ante correlaciones espurias y compresibilidad

R-Stitch: Costura de trayectoria dinámica para un razonamiento eficiente

P3SL: Aprendizaje dividido personalizado que preserva la privacidad en dispositivos de borde heterogéneos

Document Haystack: Un contexto extenso de comprensión de imágenes y documentos multimodales Visión LLM Benchmark

Agrupamiento escalable de gráficos con atributos faltantes mediante diferenciación de vecindad

TaylorPODA: un método basado en la expansión de Taylor para mejorar las atribuciones post-hoc en modelos opacos

Divide y luego vencerás: un interpolador jerárquico basado en clústeres para gráficos con atributos faltantes

$\Texttt{Droid}$: Un conjunto de recursos para la detección de código generado por IA

¿Razonamiento o memorización? Resultados poco fiables del aprendizaje por refuerzo debido a la contaminación de datos.

Fundamentos básicos para la optimización de las preferencias

Evaluación de LLM en pronósticos del mundo real frente a pronosticadores expertos

STRUCTSENSE: Un marco de trabajo agente independiente de tareas para la extracción de información estructurada con evaluación y benchmarking con intervención humana

S2FGL: Aprendizaje de gráficos federados espectrales espaciales

AI4Research: Un estudio sobre inteligencia artificial para la investigación científica

¿Por qué los programas de máster en derecho (LLM) de código abierto tienen dificultades con el análisis de datos? Un estudio empírico sistemático

Simulación de tráfico a largo plazo con movimiento autorregresivo intercalado y generación de escenarios

Reforzar los VLM para utilizar herramientas de razonamiento visual detallado bajo limitaciones de recursos

Difusión dirigida causalmente para la generación automatizada de contrafácticos en vídeo

¿Qué hace que un tokenizador de voz sea eficaz para la generación de voz centrada en LLM? Un estudio sistemático.

ChineseHarm-Bench: un punto de referencia para la detección de contenido dañino chino

ProRefine: Refinamiento de indicaciones en tiempo de inferencia con retroalimentación textual

SALAD: Evaluación sistemática del desaprendizaje automático en el diseño de hardware asistido por LLM

MetaGen Blended RAG: Desbloqueo de precisión de disparo cero para la respuesta a preguntas en dominios especializados

Hacia la revelación de la eficacia del ajuste fino a pequeña escala en el aprendizaje de refuerzo estilo R1

LightRetriever: una arquitectura de recuperación híbrida basada en LLM con inferencia de consultas 1000 veces más rápida

¿Pueden los grandes modelos multimodales comprender escenarios agrícolas? Benchmarking con AgroMind

Aprovechamiento de los modelos de visión y lenguaje para la fundamentación visual y el análisis de la interfaz de usuario automotriz

Integración temporal totalmente óptica mediada por antenas de calor de sublongitud de onda

GRILL: Restauración de la señal de gradiente en capas mal acondicionadas para mejorar los ataques adversarios a los autocodificadores

JointDiT: Mejora del modelado de uniones de profundidad RGB con transformadores de difusión

FFCBA: Ataques de puerta trasera de etiqueta limpia, de objetivo completo y basados en características

Sesgos de rendimiento multilingüe de los grandes modelos lingüísticos en la educación

NoWag: Un marco unificado para la compresión con preservación de la forma de modelos de lenguaje grandes

Reconstrucción de trayectorias de sepsis a partir de informes de casos clínicos mediante LLM: el corpus de series temporales textuales para la sepsis

Entrenamiento eficiente de modelos generativos mediante calentamiento de representación integrada

Desenrollado profundo bayesiano basado en la atención gráfica para imágenes lidar de fotón único de doble pico

Búsqueda de arquitectura espectral para modelos de redes neuronales

Mejora de la correspondencia estéreo omnidireccional con un modelo de base de profundidad entrenado previamente

ADS-Edit: Un conjunto de datos de edición de conocimiento multimodal para sistemas de conducción autónoma

Coincidencia de puntuaciones potenciales: eliminación del sesgo en el muestreo de estructuras moleculares con guía de energía potencial

Aprendizaje conjunto para modelos de lenguaje grandes en la generación de texto y código: una encuesta

Aprendizaje de desencadenantes adversarios aumentado

ETCH: Generalización del ajuste corporal a humanos vestidos mediante la tensión equivalente

M2S: jailbreak de múltiples turnos a un solo turno en Red Teaming para LLM

Un marco causal para alinear las métricas de calidad de imagen y la robustez de las redes neuronales profundas

PennyLang: Pionera en la generación de código cuántico basado en LLM con un novedoso conjunto de datos centrado en PennyLane

DexGraspVLA: Un marco de visión-lenguaje-acción para el agarre diestro general

Lente de entropía: la firma de información de los cálculos de transformadores

CAMEF: Pronóstico financiero multimodal con aumento causal basado en eventos mediante la integración de patrones de series temporales y anuncios macroeconómicos relevantes

Modelado de recompensas dispersas en el aprendizaje por refuerzo: un enfoque semisupervisado

AdamCoT: Replanteando el razonamiento fáctico translingüístico mediante la cadena de pensamiento multilingüe adaptativa

Posicionamiento inalámbrico impulsado por IA: fundamentos, estándares, estado del arte y desafíos

CHIRP: Un punto de referencia preciso para la evaluación de respuestas abiertas en modelos de visión y lenguaje

Actor-Crítico Suave con Recompensa Media

Un video vale más que mil imágenes: Explorando las últimas tendencias en la generación de videos largos

Del texto a la trayectoria: exploración de la representación y descomposición de restricciones complejas en el aprendizaje por refuerzo seguro

Hablando con DINO: Uniendo las estructuras de visión autosupervisada con el lenguaje para la segmentación de vocabulario abierto

SANDWICH: Hacia un sustituto de trazado de rayos neuronal inalámbrico, fuera de línea, diferenciable y totalmente entrenable

IDEATOR: Liberación y evaluación comparativa de grandes modelos de lenguaje de visión que se utilizan a sí mismos

Cobblestone: un enfoque de "divide y vencerás" para automatizar la verificación formal

Contracción efectiva de las creencias en las juntas generales anuales: un viaje más allá del ámbito financiero (informe técnico)

Más allá de las imágenes: Fusión adaptativa de datos visuales y textuales para la clasificación de alimentos

TAPAS: Derivación rápida y automática de estrategias tensoriales paralelas para redes neuronales grandes

KCR: Resolución de conflictos de conocimiento de largo contexto mediante razonamiento en LLM

¿Es el razonamiento en cadena de pensamiento de los LLM un espejismo? Una perspectiva de distribución de datos

CADDesigner: Diseño conceptual de modelos CAD basado en un agente de propósito general

Cuidado con la brecha: la divergencia entre las tareas humanas y las generadas por LLM

RL-PLUS: Cómo contrarrestar el colapso de los límites de capacidad de los LLM en aprendizaje por refuerzo mediante la optimización de políticas híbridas

Maximización suave basada en modelos de métricas adecuadas del poder humano a largo plazo

Tiny-BioMoE: un modelo de incrustación ligero para el análisis de bioseñales

El sistema de reescritura de términos de AlphaPhysics para calificar expresiones algebraicas en exámenes de Física

Modelado de la lógica modal deóntica en el sistema de programación de predicados y respuestas dirigido a objetivos s(CASP)

Optimización automática de indicaciones para la construcción de gráficos de conocimiento: perspectivas de un estudio empírico

La teoría de la conciencia cognitiva unificada para modelos lingüísticos: anclaje semántico, umbrales de activación y razonamiento emergente

Razonamiento abductivo basado en la consistencia sobre errores perceptuales de múltiples modelos preentrenados en entornos novedosos

Mejora de la resiliencia de los sistemas de IA: formulación y garantía de la resiliencia de LSTM basada en la teoría del control

UFEval: Evaluación unificada de grano fino con generalización de tareas y aspectos

Píxeles, patrones, pero no poesía: ver el mundo como humanos

Created by

Haebom

Autor

Hongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang

Describir

Este artículo se centra en lograr capacidades de percepción similares a las humanas en modelos lingüísticos multimodales a gran escala (MLLM). A diferencia de estudios previos que se centran principalmente en mejorar las capacidades de inferencia de los MLLM, este artículo plantea la cuestión fundamental de si los MLLM pueden realmente percibir el mundo como los humanos. Para ello, en lugar de parámetros especializados en inferencia, proponemos un nuevo parámetro centrado en la percepción denominado Prueba del Ojo de Turing (TET), que consta de cuatro tareas de diagnóstico que utilizan imágenes sintéticas que los humanos procesan intuitivamente. Los resultados experimentales muestran que los MLLM de última generación presentan graves deficiencias en tareas de percepción sencillas para humanos, y el aprendizaje en contexto y el aprendizaje de la columna vertebral del lenguaje, que resultaron eficaces en parámetros previos, no consiguen mejorar el rendimiento. Por otro lado, el ajuste fino de la torre de visión permite una rápida adaptación, lo que sugiere que este parámetro desafía la generalización de la torre de visión, no el conocimiento y las capacidades de inferencia de la columna vertebral del lenguaje. Esto pone de relieve una diferencia clave entre los MLLM actuales y la percepción humana. En la versión actual, solo se expone un subconjunto de las tareas TET, y en el futuro se agregarán métodos para mejorar la generalización visual y tareas más diversas.

Takeaways, Limitations

•

Takeaways: Presentamos un nuevo parámetro para la capacidad perceptual de los MLLM, el TET, y revelamos las limitaciones de su capacidad perceptual que no se habían detectado en los parámetros de inferencia existentes. Sugerimos que mejorar la capacidad de generalización de Vision Tower es un factor importante para que los MLLM alcancen una percepción a nivel humano.

•

Limitations: Solo una parte de la tarea TET está disponible públicamente en la versión actual, y se requiere más investigación sobre tareas y metodologías más diversas para mejorar la generalización visual. Dado que se utilizaron imágenes sintéticas, el rendimiento de la generalización en imágenes del mundo real requiere mayor validación.

Ver PDF

Made with Slashpage