Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CTA: Alineación entre tareas para una mejor capacitación en tiempos de prueba

OpenS2S: Avances en un modelo de lenguaje de voz grande, empático, de extremo a extremo y totalmente de código abierto

Clasificación de enfermedades autoinmunes a partir de repertorios de TCR de sangre periférica mediante aprendizaje multimodal de múltiples instancias

¿Qué está causando ese sonido ahora mismo? Localización audiovisual centrada en el vídeo.

LoSiA: Ajuste fino eficiente de alto rango mediante la localización y optimización de subredes

Transferencia de estilo de retrato generalizable de dominio

StreamDiT: Generación de texto a vídeo en tiempo real

Del vídeo al electroencefalograma: adaptación de la arquitectura predictiva de incrustación conjunta para descubrir conceptos visuales en el análisis de señales cerebrales

BMMR: Un conjunto de datos de razonamiento multidisciplinario, multimodal, bilingüe y a gran escala

Solucionador de redes neuronales de equilibrios MHD ideales

RAG-R1: Incentivar las capacidades de búsqueda y razonamiento de los LLM mediante paralelismo de múltiples consultas

Evaluación del asesoramiento con IA en japonés: roles de consejero, cliente y evaluador evaluados mediante criterios de entrevista motivacional

Hita: Tokenizador holístico para la generación de imágenes autorregresivas

Análisis empírico de algoritmos heurísticos y de aproximación para el problema de visibilidad mutua

Horus: Un protocolo para la delegación sin confianza en condiciones de incertidumbre

Modelo Geológico 3D: Un modelo de base rápido para una comprensión unificada y precisa del subsuelo

SurgiSR4K: Un conjunto de datos de video endoscópico de alta resolución para procedimientos mínimamente invasivos asistidos por robot

WATS: Calibración de redes neuronales gráficas con escala de temperatura sensible a wavelets

IPFormer-VideoLLM: Mejora de la comprensión de vídeo multimodal para escenas con múltiples tomas

Conversaciones personalizadas más allá de los LLM: un gestor de diálogos basado en el aprendizaje a distancia

Mejora de la generalización de redes neuronales de picos mediante regularización temporal

Seguimiento de instrucciones mediante el fomento de la atención de grandes modelos lingüísticos

Evaluación de puntuaciones GOP basadas en Logit para la detección de errores de pronunciación

LLM sobre soporte de privacidad y seguridad de aplicaciones móviles: estado del arte y direcciones de investigación

Sobre la imposibilidad fundamental del control de las alucinaciones en grandes modelos lingüísticos

Integración de características espaciotemporales en LSTM para la predicción de hospitalizaciones por COVID-19 con información espacial

CuVSLAM: odometría y mapeo visual acelerado por CUDA

Mejora del GOP en la detección de errores de pronunciación basados en CTC con conocimiento fonológico

Un estudio empírico de las correlaciones de tareas y características en la reutilización de modelos preentrenados

EEG2TEXT-CN: Un estudio exploratorio de la alineación de texto-EEG chino de vocabulario abierto mediante un modelo de lenguaje amplio y aprendizaje contrastivo en ChineseEEG

Hume: Introducción al pensamiento del sistema 2 en el modelo visual-lenguaje-acción

Hacia una memoria continua general para los modelos visión-lenguaje

Formato Común de Datos (CDF): Un formato estandarizado para datos de partidos de fútbol

Predicción invariante jerárquica bayesiana

Ajuste fino de las políticas de difusión con retropropagación mediante pasos de tiempo de difusión

Mejora de la localización de objetos satelitales con convoluciones dilatadas y agrupación espacial asistida por atención

Superar la escasez de datos en el modelado generativo del lenguaje para lenguajes con recursos limitados: una revisión sistemática

La generación GenAI: Perspectivas estudiantiles sobre concienciación, preparación y preocupación

Corrección del estado OOD variacional para el aprendizaje por refuerzo fuera de línea

Modelos de difusión de calor: mecanismo de atención entre píxeles

NoWag: Un marco unificado para la compresión con preservación de la forma de modelos de lenguaje grandes

Aprendizaje y olvido fuera de línea para razonar con modelos lingüísticos amplios

Redefiniendo los estándares de evaluación: un marco unificado para evaluar las capacidades de los modelos lingüísticos en coreano

PVChat: Videochat personalizado con aprendizaje rápido

Desafíos y tendencias de la visión egocéntrica: una encuesta

Ojos en el medio ambiente: Análisis impulsado por IA para la clasificación, segmentación y detección de incendios y humo

Enrutamiento analítico de subespacios: cómo funcionan los mínimos cuadrados recursivos en el aprendizaje continuo de un modelo de lenguaje extenso

Una encuesta sobre la extensión del contexto del transformador: enfoques y evaluación

IA ética para jóvenes ciudadanos digitales: un llamado a la acción sobre la gobernanza de la privacidad

UniCombine: Combinación multicondicional unificada con transformador de difusión

La arquitectura algorítmica de estados (ASA): un marco integrado para un gobierno basado en IA

Un marco multiagente cooperativo en cascada para el control de fusión de rampas de acceso que integra modelos de lenguaje grandes

Predicción de eventos médicos sin disparos mediante un transformador generativo preentrenado en registros médicos electrónicos

GMLM: Conexión entre redes neuronales gráficas y modelos de lenguaje para la clasificación de nodos heterofílicos

Límites fundamentales de la agregación jerárquica segura con asociación cíclica de usuarios

Mejora de la fiabilidad del LLM mediante el modelado explícito de límites de conocimiento

RSPO: Alineación regularizada de auto-juegos de modelos lingüísticos grandes

Estructuración y recuperación de conocimiento de grano fino para la respuesta visual a preguntas

Planificación eficiente sensible al riesgo mediante medidas de riesgo entrópico

Optimización bayesiana para la edición controlada de imágenes mediante LLM

Fusión de modelos dispersos y de bajo rango para el reconocimiento y la traducción del habla multilingüe

Marco de estrategia componible con modelos de lenguaje extensos basados en video y texto integrados para la evaluación de la insuficiencia cardíaca

Más allá del horizonte: MPC eficiente basado en muestreo con funciones de barrera de control neuronal

Una teoría para el modelado generativo condicional en múltiples fuentes de datos

Detección de anomalías no supervisada mediante transporte óptimo con repulsión de masa

Muestreadores de difusión discreta escalables: optimización combinatoria y física estadística

DeepCell: Fusión multivista autosupervisada para el aprendizaje de la representación de circuitos

VolleyBots: un banco de pruebas para el juego de voleibol con múltiples drones que combina control de movimiento y juego estratégico

ViGiL3D: Un conjunto de datos lingüísticamente diverso para la base visual 3D

Automatización holística de la construcción con robots modulares: desde la especificación de tareas de alto nivel hasta la ejecución

Aria-UI: Base visual para instrucciones GUI

RandAR: Generación visual autorregresiva con decodificador exclusivo en órdenes aleatorios

Generación reversible preentrenada como aprendizaje de representación visual no supervisado

Los autocodificadores enmascarados contrastivos de gráficos de preentrenamiento son potentes destiladores para EEG

Paseos aleatorios con Tweedie: una visión unificada de los modelos de difusión basados en puntuaciones

Red Q de grueso a fino con secuencia de acción para el aprendizaje de robots con eficiencia de datos

Avances en la predicción del riesgo de accidente cerebrovascular mediante un modelo de base multimodal

Una teoría de la mente basada en IA mejorará nuestra inteligencia colectiva

¿Son los LLM proféticos? Una evaluación continua usando las noticias diarias como guía.

Integración de conjuntos longitudinales para la clasificación secuencial con datos multimodales

Mejora de la estimación de la confianza en la colaboración humano-robot mediante la reputación beta en escalas de tiempo precisas

Finta y ataque: estrategias basadas en la atención para romper el jailbreak y proteger los LLM

El nexo de las tecnologías AR/VR, IA, UI/UX y robótica para mejorar el aprendizaje y la interacción social de niños con trastornos del espectro autista: una revisión sistemática

¿Qué preguntarías al ver por primera vez $a^2+b^2=c^2$? Evaluación de la Maestría en Derecho (LLM) sobre preguntas basadas en la curiosidad.

Responsabilidad y seguros por pérdidas catastróficas: el precedente de la energía nuclear y lecciones para la IA

Asegurar los riesgos no asegurables de la IA: el Estado como asegurador de último recurso

Evidencia empírica de la influencia del Modelo de Lenguaje Grande en la comunicación oral humana

Los peligros de optimizar las funciones de recompensa aprendidas: un bajo nivel de error de entrenamiento no garantiza un bajo nivel de arrepentimiento

De los LLM a las acciones: códigos latentes como puentes en el control jerárquico de robots

Aprendizaje federado alineado con la curvatura (CAFe): armonización de los panoramas de pérdidas para lograr equidad sin demografía

CoDy: Explicadores contrafácticos para gráficos dinámicos

Transporte óptimo para la adaptación del dominio mediante modelos de mezcla gaussiana

Aprendizaje de bases de datos de grafos neuronales federados para responder consultas complejas desde grafos de conocimiento distribuido

Detección de publicaciones de texto con valor expresivo en las redes sociales rusas

Las redes neuronales profundas tienen una navaja de Occam incorporada

TT-TFHE: una arquitectura de red neuronal de toro totalmente homomórfica y compatible con cifrado

SciMaster: Hacia agentes de IA científicos de propósito general, parte I. X-Master como base: ¿Podemos liderar el último examen de la humanidad?

Informe técnico de MedGemma

Aprendizaje de reglas para el razonamiento de gráficos de conocimiento bajo un cambio de distribución agnóstico

Dirección de activación para la compresión de la cadena de pensamiento

Aria-UI: Base visual para instrucciones GUI

Created by

Haebom

Autor

Yuhao Yang, Yue Wang, Dongxu Li, Ziyang Luo, Bei Chen, Chao Huang, Junnan Li

Describir

En este artículo, presentamos Aria-UI, un novedoso modelo multimodal a gran escala para agentes digitales que automatiza tareas mediante la manipulación directa de GUI en diversas plataformas. Aria-UI aborda el reto de vincular instrucciones de lenguaje con elementos de destino mediante un enfoque puramente visual, sin depender de entradas HTML o AXTree. Se adapta a instrucciones de plan heterogéneas mediante un flujo de datos escalable que genera muestras de instrucciones diversas y de alta calidad, y mejora la inferencia contextual mediante la integración de historiales de tareas de texto mixto y texto-imagen para gestionar el contexto dinámico durante la ejecución de tareas. Los resultados experimentales muestran que Aria-UI alcanza un rendimiento excepcional en las pruebas de referencia de agentes tanto online como offline, superando a los modelos existentes basados en AXTree y solo en visión. Todos los datos de entrenamiento y los puntos de control del modelo están disponibles públicamente.

Takeaways, Limitations

•

Takeaways:

◦

Presentamos un novedoso modelo multimodal, Aria-UI, que contribuye a mejorar el rendimiento de los agentes de automatización de tareas basados en GUI.

◦

Eliminar la dependencia de las entradas HTML o AXTree permite un desarrollo de agente más sólido y general.

◦

Adaptabilidad mejorada a diversas instrucciones de trabajo a través de canales de datos escalables.

◦

Conecte elementos de destino con mayor precisión con inferencia consciente del contexto aprovechando el historial de tareas de combinación de texto e imágenes.

◦

Presentando la posibilidad de desarrollo continuo de investigación a través de la divulgación de código abierto.

•

Limitations:

◦

En este artículo, evaluamos el rendimiento de Aria-UI en varios puntos de referencia, pero puede ser necesaria una verificación adicional de su rendimiento de generalización en varios entornos GUI reales.

◦

Puede haber sesgo hacia ciertos tipos de GUI o tareas.

◦

Limitaciones en la escalabilidad de las cadenas de datos y necesidad de una gestión continua de la calidad de los datos.

◦

Tal vez se necesiten más investigaciones sobre la capacidad de procesar instrucciones de tareas complejas y ambiguas.

Ver PDF

Made with Slashpage