Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Modelos lingüísticos de autocuestionamiento

Más allá del riesgo: un prototipo de marco para evaluar el impacto social de los sistemas de IA

Reducción de dimensión dinámica supervisada con redes neuronales profundas

EmoSteer-TTS: Texto a voz preciso y sin entrenamiento, controlable por emociones mediante control de activación

Los LLM tienen un corazón de piedra: desmitificando la capacidad de pensamiento blando de los grandes modelos de razonamiento

Optimización de código industrial basada en LLM bajo regulación: un enfoque de mezcla de agentes

Protocolo de evaluación confiable para recuperación de baja precisión

Landsat30-AU: Un conjunto de datos en lenguaje de visión para imágenes Landsat australianas

Aprendizaje de refuerzo integrado en herramientas para búsqueda profunda en repositorios

CauKer: los modelos básicos de series temporales de clasificación se pueden entrenar previamente solo con datos sintéticos

Integración de múltiples indicaciones adaptativas al contexto con modelos de lenguaje amplios para la alineación entre visión y lenguaje

DMSC: Marco dinámico de coordinación multiescala para la predicción de series temporales

HyCodePolicy: Controladores de lenguaje híbridos para la monitorización y toma de decisiones multimodales en agentes encarnados

Aprendizaje de la representación de entidades mediante gráficos dentro y fuera del sitio para anuncios de Pinterest

Evaluación de la experiencia del usuario en sistemas de recomendación conversacional: una revisión sistemática de enfoques clásicos e impulsados por LLM

Conciencia de frecuencia espacial para la detección de objetos en imágenes RAW

Aprendizaje de la manipulación pivotante con retroalimentación de fuerza y visión mediante demostraciones basadas en optimización

NCCR: para evaluar la robustez de las redes neuronales y los ejemplos adversarios

ChartM$^3$: Evaluación comparativa de la edición de gráficos con instrucciones multimodales

Del entrelazamiento a la alineación: descomposición del espacio de representación para la adaptación del dominio de series temporales no supervisadas

EcoTransformer: Atención sin multiplicación

Bob's Confetti: Ataques de memorización fonética en la generación de música y vídeo

SDBench: Un conjunto completo de indicadores de rendimiento para la diarización de oradores

El verdadero aprendizaje multimodal en contexto requiere atención al contexto visual

Modelos de caudal de medición

Búsqueda de arquitectura neuronal de disparo cero con correlación de respuesta ponderada

El lado oscuro de los LLM: ataques basados en agentes para el control total de las computadoras

CAVGAN: Unificación del jailbreak y la defensa de los LLM mediante ataques generativos adversariales en sus representaciones internas

VOTACIÓN: Optimización de la visión, el lenguaje y la acción con votación por conjunto de trayectorias

Un estudio comparativo de LLM especializados como recuperadores densos

Desambiguación de la detección de signos mediante modelos lingüísticos amplios

UnMix-NeRF: La desmezcla espectral se une a los campos de radiancia neuronal

Anclajes de pensamiento: ¿Qué pasos de razonamiento de LLM son importantes?

UITron-Speech: Hacia agentes GUI automatizados basados en instrucciones de voz

15.500 segundos: Clasificación eficiente de UAV mediante EfficientNet y ajuste fino de peso ligero

AtmosMJ: Revisando el mecanismo de control para la predicción meteorológica con IA más allá del año

Sobre la imposibilidad fundamental del control de las alucinaciones en grandes modelos lingüísticos

Modelos de base federados multimodales y multitarea para sistemas de realidad extendida de próxima generación: hacia una inteligencia distribuida que preserva la privacidad en AR/VR/MR

El razonamiento basado únicamente en texto libera evaluadores multimodales de cero disparos

CAIN: Secuestro de conversaciones humanas de LLM mediante avisos de sistemas maliciosos

Explicar menos, comprender más: detección de jerga mediante un ajuste fino personalizado y eficiente de parámetros

¿Qué vive? Un metaanálisis de diversas opiniones sobre la definición de vida.

Un anedador neuronal generativo para la optimización combinatoria de caja negra

GRILL: Restauración de la señal de gradiente en capas mal acondicionadas para mejorar los ataques adversarios a los autocodificadores

CostFilter-AD: Mejora de la detección de anomalías mediante el filtrado de costos coincidentes

Mj\"olnir: Un marco de parametrización de aprendizaje profundo para la densidad global de relámpagos

Reconocimiento de atributos peatonales basado en eventos RGB: un conjunto de datos de referencia y un marco de fusión RWKV asimétrico

ProtoECGNet: Aprendizaje profundo interpretable basado en casos para la clasificación de ECG de múltiples etiquetas con aprendizaje contrastivo

Más allá de las imágenes gran angular: corrección de retratos en vídeo de estructura a detalle mediante adaptación espaciotemporal no supervisada

CITRAS: Transformador basado en covariables para la predicción de series temporales

La rúbrica es todo lo que necesita: Cómo mejorar la evaluación de código basada en LLM con rúbricas específicas para cada pregunta

Análisis empírico del coentrenamiento simulado y real de políticas de difusión para empuje planar desde píxeles

SimpleRL-Zoo: Investigación y control del aprendizaje de refuerzo cero para modelos de base abierta en la práctica

NuPlanQA: Un conjunto de datos a gran escala y un punto de referencia para la comprensión de escenas de conducción multivista en modelos de lenguaje multimodales de gran tamaño

El impacto de los fallos en la redacción de ítems sobre la dificultad y la discriminación en la teoría de respuesta a los ítems

A través de la lupa: ampliación de la percepción adaptativa para la decodificación VLM sin alucinaciones

Search-R1: Formación de LLM para razonar y aprovechar los motores de búsqueda mediante aprendizaje de refuerzo

Programación de consultas basada en extracción para la comunicación semántica orientada a objetivos

Aceleración de la búsqueda focal en la búsqueda de rutas multiagente con límites inferiores más estrictos

RAILGUN: Una política convolucional unificada para la búsqueda de rutas multiagente en diferentes entornos y tareas

UltraSTF: Modelo ultracompacto para pronósticos espacio-temporales a gran escala

PTQ1.61: Ampliar el límite real de los métodos de cuantificación post-entrenamiento de bits extremadamente bajos para modelos de lenguaje grandes

Modelo Fundamentario de Historias Clínicas Electrónicas para la Estimación Adaptativa del Riesgo

Desaprendizaje de herramientas para LLM mejorados con herramientas

Visión sin imágenes: Visión artificial de extremo a extremo a partir de mediciones de compresión individuales

¿Cómo influyen los modelos generativos en un ingeniero de software? Un caso práctico sobre el sesgo de difusión estable

3DTTNet: Modelado de terreno transitable 3D basado en fusión multimodal para entornos todoterreno

DOGR: Hacia una base y referencia visual versátil de documentos

Aprendizaje de refuerzo fuera de línea en el mundo real a partir de la retroalimentación del modelo de lenguaje visual

Auditorías de robustez de modelos basadas en causalidad

AUTALIC: Un conjunto de datos para el lenguaje anti-AUTista y capacitista en contexto

Más allá de la recuperación del adaptador: composición que preserva la geometría latente mediante la proyección de tareas dispersas

Pyhgf: una biblioteca de redes neuronales para codificación predictiva

Sesgo humano ante la IA: análisis del juicio humano frente a textos etiquetados como generados por IA

AVG-LLaVA: Un modelo multimodal grande y eficiente con granularidad visual adaptativa

Compresión de indicaciones LLM guiada por árboles de análisis

Un modelo, cualquier consulta conjuntiva: redes neuronales gráficas para responder consultas sobre gráficos de conocimiento incompletos

Un método MCTS de actualización paralela basado en valores para la toma de decisiones cooperativas entre múltiples agentes de vehículos conectados y automatizados

Definiciones de equidad en modelos de lenguaje explicadas

CityLight: Un modelo universal que abarca los barrios para el control coordinado de semáforos a escala urbana

Red de fusión de evidencia temporal: visión de múltiples fuentes en la predicción de series temporales a largo plazo

Seguimiento visual de objetos a largo plazo con cámaras de eventos: un rastreador con memoria asociativa aumentada y un conjunto de datos de referencia

Hulk: Un traductor universal de conocimiento para tareas centradas en el ser humano

De la suposición de clúster a la convolución de gráficos: una revisión del aprendizaje semisupervisado basado en gráficos

Clasificación del ruido ambiental en una plataforma de hardware integrada

Inferencia de dependencia de datos para la generación de código industrial basado en diagramas de secuencia UML

InqEduAgent: El aprendizaje adaptativo de IA se asocia con el aumento del proceso gaussiano

SE-Agent: Optimización de trayectorias de autoevolución en razonamiento multipaso con agentes basados en LLM

RL-PLUS: Cómo contrarrestar el colapso de los límites de capacidad de los LLM en el aprendizaje por refuerzo mediante la optimización de políticas híbridas

Modelos de caudal de mayor calibre

Piense cómo pensar: Mitigación del pensamiento excesivo con la cognición autónoma de dificultades en modelos de razonamiento amplios

IS-Bench: Evaluación de la seguridad interactiva de agentes encarnados controlados por VLM en tareas domésticas cotidianas

SLR: Síntesis automatizada para razonamiento lógico escalable

La ilusión del SWE-Bench: cuando los LLM de vanguardia recuerdan en lugar de razonar

APOLLO: LLM automatizado y colaboración Lean para razonamiento formal avanzado

Racionalización cooperativa adversarial: el riesgo de correlaciones espurias incluso en conjuntos de datos limpios

Aprendiendo a inferir de forma adaptativa para modelos lingüísticos multimodales de gran tamaño

Inducción eficiente de reglas ignorando reglas inútiles

Por qué el agente tomó esa decisión: aprendizaje explicativo contrastivo para el aprendizaje por refuerzo

Evaluación de los umbrales de detección: el impacto de los falsos positivos y negativos en la microscopía de localización por ultrasonido de súper resolución

HyCodePolicy: Controladores de lenguaje híbridos para la monitorización y toma de decisiones multimodales en agentes encarnados

Created by

Haebom

Autor

Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu

Describir

Este artículo analiza los avances recientes en modelos de lenguaje multimodales a gran escala (MLLM), que permiten obtener evidencia perceptual enriquecida para la generación de políticas de código en agentes encarnados. La mayoría de los sistemas existentes carecen de mecanismos efectivos para la monitorización adaptativa de la ejecución de políticas y la recuperación de código durante la finalización de tareas. Este estudio presenta HyCodePolicy, un marco de control híbrido basado en lenguaje que integra sistemáticamente la síntesis de código, la evidencia geométrica, la monitorización perceptual y la recuperación iterativa en el ciclo de programación de bucle cerrado de agentes encarnados. Dada una instrucción en lenguaje natural, el sistema la descompone primero en subobjetivos y genera un programa ejecutable inicial basado en primitivas geométricas orientadas a objetos. Posteriormente, mientras el programa se ejecuta en simulación, un modelo de visión-lenguaje (VLM) observa puntos de control seleccionados para detectar, localizar e inferir la causa de los fallos de ejecución. Mediante la integración de trazas de ejecución estructuradas que capturan eventos a nivel de programa con retroalimentación perceptual basada en VLM, HyCodePolicy infiere la causa de los fallos y recupera el programa. Este mecanismo híbrido de doble retroalimentación permite la síntesis de programas autocorrectivos con mínima supervisión humana. Los resultados experimentales demuestran que HyCodePolicy mejora significativamente la robustez y la eficiencia de las muestras de las políticas de manipulación robótica, proporcionando una estrategia escalable para integrar la inferencia multimodal en los procesos de toma de decisiones autónoma.

Takeaways, Limitations

•

Takeaways:

◦

Presentamos HyCodePolicy, un nuevo marco que aprovecha la inferencia multimodal para mejorar la robustez y la eficiencia de la muestra de las políticas de manipulación de robots.

◦

Implementar un ciclo de programación de circuito cerrado que integra síntesis de código, razonamiento geométrico, monitoreo perceptivo y recuperación iterativa.

◦

La síntesis de programas autocorrectores es posible a través de un mecanismo de retroalimentación dual híbrido que combina retroalimentación perceptiva basada en VLM y seguimiento de eventos a nivel de programa.

◦

Proporcionar una estrategia escalable para integrar la inferencia multimodal en procesos de toma de decisiones autónomos.

•

Limitations:

◦

El rendimiento de HyCodePolicy puede depender del rendimiento del VLM y de otros componentes utilizados.

◦

Puede tener una capacidad limitada para manejar situaciones de fallas complejas o inesperadas.

◦

El rendimiento en un entorno simulado no garantiza la generalización a entornos del mundo real.

◦

Se debe tener en cuenta las restricciones y problemas adicionales que pueden surgir cuando se aplica a sistemas robóticos reales.

Ver PDF

Made with Slashpage