[공지사항]을 빙자한 안부와 근황

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Núcleo de fusión para optimización bayesiana en el espacio de permutación

Clasificación detallada de fracturas de muñeca pediátricas teniendo en cuenta la demografía

Recomendación generativa multidominio de múltiples objetivos

ParaStudent: Generar y evaluar código estudiantil realista enseñando a los LLM a esforzarse

Modelado de la cognición en mundo abierto como síntesis a demanda de modelos probabilísticos

EgoVLA: Aprendizaje de modelos de visión, lenguaje y acción a partir de vídeos de personas egocéntricas

Inversión-DPO: Post-entrenamiento preciso y eficiente para modelos de difusión

Una línea base simple para redes neuronales estables y plásticas

WildFX: Un pipeline basado en DAW para modelado gráfico de efectos de audio en la naturaleza

De KMMLU-Redux a KMMLU-Pro: un conjunto de referencia coreano profesional para la evaluación de LLM

Agent KB: Aprovechar la experiencia multidominio para la resolución de problemas agénticos

Cómo no detectar inyecciones inmediatas con un LLM

Críticas de los modelos mundiales

El papel de los grandes modelos de lenguaje en el diseño UI/UX: una revisión sistemática de la literatura

LearnLens: Retroalimentación personalizada, basada en el currículo y habilitada para LLM, con educadores involucrados

STACK: Ataques adversarios a los pipelines de protección de LLM

ZonUI-3B: Un modelo de lenguaje de visión ligero para la puesta a tierra de GUI de resolución cruzada

Comprensión del razonamiento en modelos de lenguaje de pensamiento mediante vectores de dirección

Redes neuronales agénticas: sistemas multiagente autoevolutivos mediante retropropagación textual

EvolveNav: Razonamiento corporal automejorable para la navegación visual-lingüística basada en LLM

TextDiffuser-RL: Optimización eficiente y robusta del diseño de texto para síntesis de texto a imagen de alta fidelidad

SpecMaskFoley: Dirigir un transformador generativo enmascarado espectral preentrenado hacia la síntesis sincronizada de video a audio mediante ControlNet

Exploración de representaciones gráficas de formas lógicas para el modelado del lenguaje

DeepSeek-Prover-V2: Avanzando en el razonamiento matemático formal mediante el aprendizaje por refuerzo para la descomposición de subobjetivos

ParaPO: Alineación de modelos lingüísticos para reducir la reproducción literal de datos previos al entrenamiento

DP2Unlearning: Un marco de desaprendizaje eficiente y garantizado para LLM

CDUPatch: Ataque de parche adversario universal basado en color para detectores de infrarrojo visible de doble modo

Práctica: Segmentación de signos individuales a partir de secuencias continuas

¿Podemos aliviar el cuello de botella de inyectividad en las variedades lorentzianas para redes neuronales gráficas?

Alinea tu ritmo: Genera poses de baile altamente alineadas con representación de características con reconocimiento del ritmo y mejoradas mediante puertas

HoH: Un punto de referencia dinámico para evaluar el impacto de la información obsoleta en la generación aumentada por recuperación

AIvaluateXR: Un marco de evaluación para la IA en dispositivos en XR con resultados de benchmarking

Un enfoque empírico de minimización de riesgos para el RL inverso fuera de línea y el modelo de elección discreta dinámica

Evaluación de la predicción de enlaces: nuevas perspectivas y recomendaciones

Aprender a razonar en la frontera de la aprendibilidad

Stonefish: Apoyo a la investigación del aprendizaje automático en robótica marina

Armonía en la divergencia: Hacia un ajuste fino de LLM de orden cero rápido, preciso y eficiente en memoria

Sobre la transferencia de conocimiento en algoritmos cuánticos

Legibilidad del código en la era de los grandes modelos de lenguaje: un estudio de caso industrial de Atlassian

Sesgo en la toma de decisiones para los dilemas éticos de la IA: un estudio comparativo de ChatGPT y Claude

ASTRID: un TRIaD automatizado y escalable para la evaluación de sistemas de respuesta a preguntas clínicas basados en RAG

Coherencia de las respuestas y continuaciones generadas por grandes modelos lingüísticos en las redes sociales

Del código al cumplimiento: evaluación de la utilidad de ChatGPT en el diseño de una página web accesible: un estudio de caso

Razonamiento temporal para el resumen de la línea de tiempo en las redes sociales

Ataques de puerta trasera textuales invisibles basados en doble activación

Hacia el descubrimiento científico con el aprendizaje de diccionarios: extracción de conceptos biológicos de modelos básicos de microscopía

Preentrenamiento en dos etapas para la predicción de propiedades moleculares en la naturaleza

Hacia el funcionamiento práctico de agentes de aprendizaje de refuerzo profundo en la gestión de redes del mundo real en los bordes de RAN abierta

Un enfoque para la generación automática de funciones de etiquetado para chatbots de ingeniería de software

Conectando el conocimiento local y global mediante Transformers en los juegos de mesa

Pérdida de entropía: un amplificador de interpretabilidad de la red de detección de objetos 3D para la conducción inteligente

FBSDiff: Sustitución de bandas de frecuencia plug-and-play de características de difusión para una traducción de imágenes basada en texto altamente controlable

Sobre el preentrenamiento de modelos de lenguaje multimodal personalizados para la comprensión de gráficos

Métodos de base visual para una interacción eficiente con interfaces gráficas de usuario de escritorio

Instruct-MusicGen: Desbloqueo de la edición de texto a música para modelos de lenguaje musical mediante el ajuste de instrucciones

Meta4XNLI: Un corpus paralelo translingüístico para la detección e interpretación de metáforas

SecurePose: Difuminado automático de rostros y extracción cinemática del movimiento humano a partir de vídeos grabados en entornos clínicos

Muestreo DDIM mejorado con mezclas gaussianas de coincidencia de momentos

Realidad virtual con seguimiento ocular: un estudio exhaustivo sobre métodos y desafíos de privacidad

De las raíces a las recompensas: razonamiento dinámico de árboles con RL

Iluminando los tres dogmas del aprendizaje por refuerzo bajo la luz evolutiva

Análisis del espacio de instancias del problema de enrutamiento de vehículos capacitados

LLM multiagente como defensores de la ética para sistemas basados en IA

GATSim: Simulación de movilidad urbana con agentes generativos

Razonamiento sobre la incertidumbre: ¿Los modelos de razonamiento saben cuándo no saben?

La ilusión del pensamiento: comprender las fortalezas y limitaciones de los modelos de razonamiento a través de la lente de la complejidad del problema

Reflectivismo estratégico en sistemas inteligentes

SafeAgent: Protección de agentes LLM mediante un simulador de riesgos automatizado

¿Qué diablos es la Inteligencia General Artificial?

Hacia la era del razonamiento: un estudio de las largas cadenas de pensamiento para razonar con modelos de lenguaje grandes

De las palabras a las colisiones: evaluación guiada por LLM y generación adversarial de escenarios de conducción críticos para la seguridad

¿Codificar o no codificar? Integración de herramientas adaptativas para modelos de lenguaje matemático mediante expectativa-maximización.

BLAST: Un ataque sigiloso de puerta trasera contra sistemas cooperativos multiagente basados en aprendizaje de refuerzo profundo

UniEmoX: Preentrenamiento a gran escala guiado semánticamente y transmodal para la percepción universal de emociones en escenas

CorMulT: Un transformador multimodal semisupervisado que tiene en cuenta la correlación de modalidades para el análisis de sentimientos

Hacia el aprendizaje de la representación causal temporal con descomposición tensorial

Redes de Kolmogorov Arnold (KAN) para datos desequilibrados: una perspectiva empírica

NoHumansRequired: Edición de imágenes autónoma de alta calidad y minería de tripletes

Lecciones del programa TREC de Adaptación en lenguaje sencillo de resúmenes biomédicos (PLABA)

Validación multicéntrica de un modelo de aprendizaje profundo para la evaluación de la escoliosis

El vínculo entre la emoción y la memoria: ¿Son importantes las anotaciones de memorabilidad para los sistemas inteligentes?

DENSE: Generación longitudinal de notas de progreso con modelado temporal de notas clínicas heterogéneas en visitas hospitalarias

Inteligencia de borde con redes neuronales de punta

VLA-Mark: una marca de agua intermodal para un modelo de alineación de visión y lenguaje de gran tamaño

La modulación de ganancia inspirada en el noradrenérgico atenúa la brecha de estabilidad en el entrenamiento articular

Un optimizador de serpiente mejorado y de múltiples estrategias para la planificación de rutas de UAV tridimensionales y problemas de ingeniería

Plataforma de tejido fotónico para aceleradores de IA

OrthoInsight: Diagnóstico de fracturas costales y generación de informes basados en modelos multimodales de gran tamaño

CSD-VAR: Descomposición de estilo de contenido en modelos autorregresivos visuales

Una red neuronal de percepción de agarre de robot segmentado para IA de borde

Superinteligencia de abajo hacia arriba específica del dominio: un gráfico de conocimiento confiable es lo que necesitamos

DUALRec: Un marco híbrido de modelos secuenciales y de lenguaje para la recomendación de películas según el contexto

Aprovechar el efecto de primacía para mejorar los modelos de lenguaje grandes

Pronóstico generalista con modelos de vídeo congelado mediante difusión latente

Transformaciones convergentes de la representación visual en cerebros y modelos

Preimpresión: ¿Acabo de visitar un sitio web escrito por doctores en derecho?

Las palancas de la persuasión política con IA conversacional

Clasificación de textos según inclinación política y politicidad

Aprendizaje autosupervisado sobre datos de expresión genética

Uso de LLM para identificar características de habilidades personales y profesionales en una prueba de juicio situacional de respuesta abierta

ZonUI-3B: Un modelo de lenguaje de visión ligero para la puesta a tierra de GUI de resolución cruzada

Created by

Haebom

Autor

ZongHan Hsieh, Tzer-Jen Wei, ShengJing Yang

Describir

ZonUI-3B es un modelo de lenguaje de visión (VLM) ligero, totalmente entrenable en una sola GPU de consumo (RTX 4090), con un rendimiento comparable al de modelos mucho más grandes en tareas de integración de GUI. Soluciona el problema de la escasez de datos en entornos de escritorio de alta resolución mediante un conjunto de datos multiplataforma y multirresolución de 24 000 ejemplos de diversas fuentes, incluyendo capturas de pantalla de GUI de dispositivos móviles, ordenadores y web. Mejora la adaptabilidad del modelo mediante una estrategia de ajuste fino en dos pasos: aprendizaje inicial multiplataforma y ajuste fino especial en datos de alta resolución, y demuestra que la diversidad de datos es más importante que la cantidad mediante una estrategia de reducción de redundancia. Logra una excelente precisión (84,9 % para ScreenSpot, 86,4 % para ScreenSpot-v2 y 86,4 % para ScreenSpot-Pro) en benchmarks como ScreenSpot, ScreenSpot-v2 y ScreenSpot-Pro, superando a los modelos existentes con menos de 4 000 millones de parámetros. Los estudios de ablación verifican que el muestreo balanceado y el ajuste fino en dos pasos desempeñan un papel importante en la mejora de la robustez en escenarios de escritorio de alta resolución. El modelo está disponible en https://github.com/Han1018/ZonUI-3B .

GitHub - Han1018/ZonUI-3B: ZonUI-3B — A lightweight, resolution-aware GUI grounding model trained with only 24K samples on a single RTX 4090.

ZonUI-3B — A lightweight, resolution-aware GUI grounding model trained with only 24K samples on a single RTX 4090. - Han1018/ZonUI-3B

github.com

Takeaways, Limitations

•

Takeaways:

◦

Desarrollo exitoso de un VLM liviano que logra un rendimiento similar al de los modelos a gran escala en una sola GPU de consumo.

◦

Mejora efectiva de la comprensión y adaptabilidad de la GUI a través de conjuntos de datos multiplataforma y de múltiples resoluciones y una estrategia de ajuste fino de dos pasos.

◦

Enfatizar la importancia de la diversidad de datos y aumentar la eficiencia de los datos reduciendo la redundancia.

◦

Se logró un excelente desempeño en tareas de conexión a tierra de GUI (ScreenSpot 84,9%, ScreenSpot-v2 86,4%).

◦

Mejorar la accesibilidad mediante la divulgación de código abierto.

•

Limitations:

◦

El tamaño del conjunto de datos aún puede ser limitado (24 000 ejemplos). Es posible que se pueda mejorar el rendimiento al usar un conjunto de datos más grande.

◦

Es posible que se necesiten investigaciones adicionales sobre el rendimiento de generalización para tipos específicos de GUI o resoluciones específicas.

◦

Si bien muestra ventajas de rendimiento en comparación con modelos con menos de 4B parámetros, puede faltar un análisis comparativo con modelos mucho más grandes.

◦

Se requiere una evaluación del rendimiento adicional en entornos de aplicación reales.

Ver PDF

Made with Slashpage