Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

PRIX: Aprendiendo a planificar desde cero para la conducción autónoma de extremo a extremo

Swin-TUNA: Un novedoso enfoque PEFT para la segmentación precisa de imágenes de alimentos

EarthLink: Un agente de IA autoevolutivo para la ciencia del clima

Proxy de realidad: Interacciones fluidas con objetos del mundo real en realidad mixta mediante representaciones abstractas

Aprovechamiento de señales heterogéneas y de múltiples fuentes para la detección de fatiga

Bondad de pronunciación sin segmentación

Marco de estimación de pose relativa adaptativa con ajuste de ruido dual para maniobras de aproximación seguras

Coordinación compositiva para equipos multi-robot con modelos lingüísticos extensos

La difusión supera a la autorregresión en entornos con limitaciones de datos

El nuevo cuello de botella del LLM: una perspectiva sistémica sobre la atención latente y la mezcla de expertos

EndoControlMag: Ampliación robusta del movimiento vascular endoscópico con restablecimiento periódico de referencia y control jerárquico de doble máscara con reconocimiento de tejido

Redes neuronales de gráficos de larga y corta distancia y mejora del aprendizaje curricular para el reconocimiento de emociones en la conversación

Omni-Thinker: Escalamiento de la generalización entre dominios en LLM mediante aprendizaje a distancia multitarea con recompensas híbridas

GCC-Spam: Detección de spam mediante GAN, aprendizaje contrastivo y redes de similitud de caracteres

SDSC: Una métrica consciente de la estructura para el aprendizaje de la representación de señales semánticas

Los LLM multilingües no son pensadores multilingües: evidencia de la evaluación de analogías con hindi

Modulación de la atención dinámica de frecuencia para la predicción densa

Una encuesta sobre aprendizaje profundo para la resolución de problemas de geometría

Modelos de la Fundación EEG: Una revisión crítica del progreso actual y las direcciones futuras

Inversión-DPO: Post-entrenamiento preciso y eficiente para modelos de difusión

Un marco PBN-RL-XAI para descubrir una estrategia terapéutica de “golpe y fuga” en el melanoma

Prioridades de tareas: mejora de la evaluación del modelo al considerar todo el espacio de tareas posteriores

OrQstrator: Un marco impulsado por IA para la optimización avanzada de circuitos cuánticos

Un estudio exhaustivo de la clasificación de argumentos basada en LLM: desde LLAMA pasando por GPT-4o hasta Deepseek-R1

Indicadores mecanicistas de comprensión en modelos lingüísticos amplios

Adaptación del aprendizaje real a vídeos largos

Teleoperación bilateral rápida y aprendizaje por imitación mediante control de fuerza sin sensores mediante un modelo dinámico preciso

Autocodificadores enmascarados que perciben el corazón: revelando el sesgo de simplicidad en los análisis de ECG

SyncMapV2: Segmentación no supervisada robusta y adaptativa

Dinámica web LLM: Seguimiento del colapso del modelo en una red de LLM

¿Por qué se producen efectos de evaluación dependientes de la clase con la atribución de características de series temporales? Una investigación con datos sintéticos

Difuso y disperso: generación de imágenes con regularización de representación

LLM-D12: Una escala bidimensional de dependencias instrumentales y relacionales en grandes modelos lingüísticos

MambaNeXt-YOLO: Un modelo híbrido de espacio de estados para la detección de objetos en tiempo real

PALADIN: Huella neuronal robusta para modelos de difusión de texto a imagen

Aprendizaje de refuerzo en línea basado en resultados: algoritmos y límites fundamentales

Soluciones de aprendizaje automático integradas en una plataforma IoT de atención médica para la estratificación del riesgo de insuficiencia cardíaca

Más allá de la descomposición de bajo rango: un enfoque rápido para un aprendizaje eficiente en el dispositivo

Transformadores de visión en la agricultura de precisión: un estudio exhaustivo

PerceptionLM: Datos y modelos de acceso abierto para una comprensión visual detallada

Posición: Una teoría de la identificabilidad con base empírica acelerará la investigación sobre aprendizaje autosupervisado

LagKV: La información relativa al retraso de la caché KV indica qué tokens son importantes

Desencadenante sin rastro: Hacia un ataque de puerta trasera sigiloso en modelos de difusión de texto a imagen

Muestreo logit disperso: aceleración de la destilación del conocimiento en los LLM

Alineando la visión con el lenguaje: Construcción de gráficos de conocimiento multimodal sin anotaciones para un razonamiento mejorado en LLM

Adaptador Att: un adaptador de difusión T2I multiatributos, robusto y preciso, específico de dominio mediante un autocodificador variacional condicional

Cuando un gran modelo de visión y lenguaje se combina con imágenes de teledetección de gran tamaño: Poda de tokens guiada por texto de grueso a fino

Aprendizaje robusto de múltiples vistas mediante la fusión de la representación de la atención a nivel de muestra y la alineación de la perturbación simulada

Abordaje de la alucinación a partir de modelos condicionales para la reconstrucción de imágenes médicas con DynamicDPS

Aprendizaje automático cuántico en medicina de precisión y descubrimiento de fármacos: ¿Un cambio radical para los tratamientos personalizados?

Un modelo de lenguaje general para la identificación de péptidos

ExpliCa: Evaluación del razonamiento causal explícito en modelos lingüísticos amplios

EVEv2: Líneas de base mejoradas para modelos de visión y lenguaje sin codificador

Alineación LLM como optimización del recuperador: una perspectiva de recuperación de información

Pulse-PPG: Un modelo de código abierto de base PPG entrenado en campo para aplicaciones portátiles en entornos de laboratorio y de campo.

Mercado inmobiliario en línea

Aprendizaje y optimización integrados para la gestión de la congestión y la maximización de beneficios en el mercado eléctrico en tiempo real

Integración de evidencia en el diseño de sistemas de apoyo a la toma de decisiones basados en XAI e IA: un marco de medios y fines para usuarios finales en la construcción

Diseño de parámetros escalables para circuitos cuánticos superconductores con redes neuronales gráficas

Un estudio sobre la identificación de causalidad de eventos: taxonomía, desafíos, evaluación y perspectivas

Desclasificación de la máquina correctiva neuronal

Hacia una generalización médica multimodal universal en 3D mediante el aprendizaje de una representación invariante personalizada

Primitivas de variedad de movimiento diferenciables para la generación de movimiento reactivo bajo restricciones cinedinámicas

Ajuste fino de orden cero de LLM en subespacios aleatorios

RUMI: Hurgando con información mutua

Desclasificación de máquinas neuronales

VolDoGer: Conjuntos de datos asistidos por LLM para la generalización de dominios en tareas de visión y lenguaje

Detección de deriva conceptual no supervisada a partir de representaciones de aprendizaje profundo en tiempo real

Un marco de evaluación multifacético para evaluar datos sintéticos generados por grandes modelos lingüísticos

DualXDA: Hacia una atribución de datos dispersa, eficiente y explicable en grandes modelos de IA

Cuantificación de la singularidad y el carácter divisivo del discurso presidencial

DocTER: Evaluación de la edición de conocimiento basada en documentos

Aprendizaje de conceptos definibles en lógica de primer orden con conteo

Reconocimiento y obtención de perfiles de cruces simples débiles en árboles

Compliance Brain Assistant: IA conversacional y agente para asistir en tareas de cumplimiento en entornos empresariales

Aprendizaje de abstracciones temporales mediante homomorfismos variacionales en MDP abstractos inducidos por opciones

Cuando la autonomía se descontrola: preparándose para los riesgos de la colusión multiagente en los sistemas sociales

Un marco integrado de ingeniería rápida y gráficos de conocimiento multidimensionales para el análisis de disputas legales

DisMS-TS: Eliminación de características multiescala redundantes para la clasificación de series temporales

Corrompidos por el razonamiento: los modelos de lenguaje de razonamiento se convierten en oportunistas en los juegos de bienes públicos

Formación de haces y asignación de recursos para la minimización del retardo en sistemas OFDM asistidos por RIS

Influenciabilidad neurodivergente como solución contingente al problema de alineación de la IA

EducationQ: Evaluación de las capacidades docentes de los LLM mediante un marco de diálogo multiagente

SuperARC: una prueba agnóstica para inteligencia limitada, general y superinteligencia basada en los principios de compresión recursiva y probabilidad algorítmica

IPCGRL: Aprendizaje por refuerzo instruido por el lenguaje para la generación de niveles procedimentales

OR-LLM-Agent: Automatización del modelado y la resolución de problemas de optimización de investigación de operaciones con razonamiento LLM

El razonamiento químico en los LLM permite la planificación de síntesis con conciencia de estrategia y la elucidación del mecanismo de reacción.

BEARCUBS: Un referente para agentes web que utilizan ordenadores

De la hipótesis a la publicación: un estudio exhaustivo de los sistemas de apoyo a la investigación basados en IA

HPS: Muestreo de preferencias duras para la alineación de las preferencias humanas

Un método de recompensa diferenciada para algoritmos de toma de decisiones cooperativas de múltiples vehículos basados en aprendizaje de refuerzo

Recuperación de clases de órdenes causales con bases de conocimiento inconsistentes

Sobre la estructura de la procedencia de los juegos y sus aplicaciones

I-CEE: Adaptación de las explicaciones de los modelos de clasificación de imágenes a la experiencia del usuario

SIDA: Adaptación del dominio de disparo cero impulsada por imágenes sintéticas

Síntesis de software 3D guiada por representación intermedia expresiva de restricciones

Mudanza: colaboración entre humanos e IA con base física

SynC: Refinamiento del conjunto de datos de subtítulos de imágenes sintéticas con mapeo de uno a muchos para subtítulos de imágenes de disparo cero

Recuento aproximado de SMT más allá de dominios discretos

DRWKV: Enfoque en los bordes de los objetos para mejorar la imagen con poca luz

Aprendizaje de refuerzo en línea basado en resultados: algoritmos y límites fundamentales

Created by

Haebom

Autor

Fan Chen, Zeyu Jia, Alexander Rakhlin, Tengyang Xie

Describir

Este artículo aborda un problema clave en el aprendizaje por refuerzo mediante retroalimentación basada en resultados: cómo asignar crédito a las acciones correctas cuando las recompensas se observan solo en los puntos finales de una trayectoria. Proporcionamos el primer análisis exhaustivo de este problema en un contexto de aprendizaje por refuerzo en línea mediante aproximación de funciones generales. Desarrollamos un algoritmo con eficiencia muestral demostrable que alcanza una complejidad muestral de $\widetilde{O}({C_{\rm cov} H^3}/{\epsilon^2})$, donde $C_{\rm cov}$ es el coeficiente de cobertura del MDP subyacente. Al aprovechar la aproximación de funciones generales, logramos un funcionamiento eficiente incluso en espacios de estados grandes o infinitos donde los métodos tabulares fallan, siempre que las funciones de valor y de recompensa puedan expresarse en una clase apropiada de funciones. También caracterizamos los casos en los que la retroalimentación basada en resultados es estadísticamente separable de las recompensas paso a paso, y demostramos que la separación exponencial es inevitable para ciertos MDP. Para MDP deterministas, presentamos un método que simplifica considerablemente el algoritmo al eliminar el supuesto de completitud. Además, ampliamos el enfoque a entornos de retroalimentación basados en preferencias, demostrando que se puede lograr una eficiencia estadística equivalente incluso con información más limitada. Estos resultados constituyen una base teórica para comprender las propiedades estadísticas del aprendizaje de refuerzo basado en resultados.

Takeaways, Limitations

•

Takeaways:

◦

Proporcionamos desarrollo y análisis teórico de un algoritmo de muestra eficiente para el aprendizaje de refuerzo basado en resultados utilizando aproximación de función general.

◦

Análisis de características sobre la separación estadística entre la retroalimentación basada en resultados y las recompensas basadas en pasos.

◦

Simplificación de algoritmos en MDP deterministas y extensión a configuraciones de retroalimentación basadas en preferencias.

◦

Establecer una base teórica para las propiedades estadísticas del aprendizaje de refuerzo basado en resultados.

•

Limitations:

◦

Falta de una interpretación clara y un método de cálculo para el coeficiente de cobertura ($C_{\rm cov}$).

◦

Es necesario un análisis más detallado del inevitable fenómeno de separabilidad exponencial en ciertos MDP.

◦

Falta de validación experimental para aplicaciones en el mundo real.

Ver PDF

Made with Slashpage