Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Texto a SQL de extremo a extremo con selección de conjuntos de datos: aprovechamiento de LLM para la generación de consultas adaptativas

Fourier-VLM: Compresión de tokens de visión en el dominio de frecuencia para modelos de lenguaje de visión de gran tamaño

LAG: Generación aumentada lógicamente desde una perspectiva cartesiana

Eco: Desacoplamiento de la inferencia y el entrenamiento para la alineación RL a gran escala en enjambres heterogéneos

FDC-Net: Repensando la asociación entre la eliminación de artefactos EEG y la computación afectiva multidimensional

Equidad en la síntesis del habla disártrica: comprensión del sesgo intrínseco en la clonación del habla disártrica mediante F5-TTS

RCR-Router: Enrutamiento contextual eficiente y basado en roles para sistemas LLM multiagente con memoria estructurada

DS$^2$Net: Red de supervisión profunda semántica de detalles para la segmentación de imágenes médicas

LLMDistill4Ads: Uso de codificadores cruzados para extraer señales LLM y obtener recomendaciones de frases clave de anunciantes en eBay

Cuando los coches tienen estereotipos: auditoría del sesgo demográfico en objetos a partir de modelos de texto a imagen

HiTeC: Aprendizaje contrastivo jerárquico en hipergrafos atribuidos a texto con aumento consciente de la semántica

SpectrumFM: Redefiniendo la cognición del espectro mediante el modelado de bases

Cirugía dinámica asistida por robot con segmentación semántica incremental de clases jerárquicas

Un nuevo modelo de lenguaje para predecir resultados de eventos adversos graves en ensayos clínicos a partir de sus registros prospectivos

Un poco de libertad rinde mucho: algoritmos clásicos y cuánticos para el aprendizaje por refuerzo bajo un modelo generativo

ALLoyM: Un modelo de lenguaje amplio para la predicción de diagramas de fases de aleación

Aprendizaje de visemas fonéticos dependientes del contexto para mejorar la animación facial 3D basada en el habla

¿Están los modelos de Vision Foundation preparados para el registro de imágenes médicas listas para usar?

SystolicAttention: fusión de FlashAttention en una única matriz sistólica

RAPNet: una red neuronal convolucional adaptativa de campo receptivo para pansharpening

AMix-1: Un camino hacia un modelo de base proteica escalable en tiempo de prueba

Superando la última milla de la predicción: mejora de la previsión de series temporales con correspondencia de flujo guiada condicional

Speckle2Self: Reducción de moteado por ultrasonido autosupervisada sin datos limpios

LIRA: Inferencia de segmentación en grandes modelos multimodales con asistencia de regiones intercaladas locales

Abordar los efectos devastadores del envenenamiento de datos de una sola tarea en el aprendizaje continuo sin ejemplos

Modelos de base versus modelos específicos de dominio: comparación de rendimiento, fusión y explicabilidad en el reconocimiento facial

Optimalidad probabilística para el escalamiento en tiempo de inferencia

ARAG: Generación aumentada de recuperación agéntica para recomendaciones personalizadas

Explorando las ventajas y desventajas del diseño de adaptadores para la generación de música con bajos recursos

CycleDistill: Arranque de la traducción automática mediante LLM con destilación cíclica

Detección robusta de anomalías en el tráfico de red: evaluación de modelos de aprendizaje automático en CICIDS2017

Clonación robusta del comportamiento mediante regularización global de Lipschitz

K-medias de múltiples núcleos inducidas por bolas granulares

DRAMA-X: Un punto de referencia de predicción de intenciones y razonamiento de riesgos de grano fino para la conducción

MMET: Un transformador multientrada y multiescala para la resolución eficiente de ecuaciones diferenciales parciales (EDP)

Un método de optimización de dos etapas para la detección magnética cuántica de un solo electrón de amplio rango

Transformador con base en la física y con capacidad de teleconexión para pronósticos globales subestacionales a estacionales

Compromisos generados por IA para la formación de coaliciones

MLOps con microservicios: un estudio de caso en el ámbito marítimo

El ganador se lo lleva todo en la predicción de series temporales probabilísticas multivariadas

Saltos más allá de lo visible: Razonamiento reforzado, generación aumentada de notas clínicas

Aprendiendo a diagnosticar de forma privada: LLM con tecnología de DP para la clasificación de informes de radiología

HERGC: Representación de expertos heterogéneos y compleción generativa para gráficos de conocimiento multimodales

Hombre lobo verbal: Involucra a los usuarios con un marco de juego de hombre lobo verbalizado y agente

MaCP: Adaptación mínima pero poderosa mediante proyección jerárquica de coseno

CADRE: Garantía personalizable de disponibilidad de datos en el aprendizaje federado que preserva la privacidad

FP4 All the Way: Formación totalmente cuantificada de LLM

Mejora de los resultados de LLM contra ataques de jailbreak con la integración de modelos expertos

Extracción de conocimiento probabilístico de grandes modelos lingüísticos para la parametrización de redes bayesianas

RIDGECUT: Aprendiendo la partición de gráficos con anillos y cuñas

Pérdida uniforme vs. optimización especializada: un análisis comparativo en el aprendizaje multitarea

¿Pueden las estrategias de inversión financiera basadas en LLM superar al mercado en el largo plazo?

Un enfoque de aprendizaje profundo multimodal para la predicción de la forma de la materia blanca en la tractografía de resonancia magnética de difusión

La escasez supera las proyecciones de bajo rango en la adaptación de pocos intentos

Aprendizaje de representación multimodal de proteínas jerárquicas bidireccionales

Cómo la formación posterior transforma los LLM: una visión mecanicista del conocimiento, la veracidad, el rechazo y la confianza

$\Mu$KE: Edición de conocimiento no estructurado de Matryoshka de modelos de lenguaje grandes

Aprendiendo simuladores 3D-gaussianos a partir de videos RGB

Aprendizaje del agarre diestro adaptativo a partir de demostraciones individuales

Una teoría del aprendizaje con cadena de pensamiento autorregresiva

FunGraph: Gráficos de escenas 3D con funcionalidades para interacción entre escenas basada en el lenguaje

De la reutilización a la previsión: Aceleración de los modelos de difusión con TaylorSeers

ElementaryNet: Una red neuronal no estratégica para predecir el comportamiento humano en juegos de forma normal

Razonamiento colectivo entre estudiantes de maestría en derecho: un marco para la validación de respuestas sin verdad fundamental

Avances en la síntesis de imágenes médicas con IA: perspectivas del desafío MedVQA-GI con CLIP, difusión estable optimizada y Dream-Booth + LoRA

Predicción de la depresión en entrevistas de detección mediante la colaboración interactiva multitemática

Razonamiento de gráficos de escena guiados por esquemas basado en un sistema de modelos de lenguaje grande multiagente

MQuant: Liberando el potencial de inferencia de los modelos de lenguaje multimodales grandes mediante la cuantificación estática completa

Mitigación de las oscilaciones de tráfico en flujos de tráfico mixto con control predictivo Koopman profundo y escalable

Mejorar la clasificación de su modelo en Chatbot Arena mediante la manipulación de votos

FIT-Print: Hacia una verificación de propiedad de modelos resistente a reclamaciones falsas mediante huellas dactilares específicas

La atención de Softplus con reponderación mejora la extrapolación de longitud en modelos de lenguaje grandes

Rango de Ehrenfeucht-Haussler y cadena de pensamiento

WebWalker: Evaluación comparativa de LLM en navegación web

IA generativa para animación de celuloide: una encuesta

Hacia una nube inteligente y segura: un modelo de lenguaje amplio que potencia la defensa proactiva

Aumento de MomentMix con DETR con reconocimiento de longitud para una recuperación de momentos robusta temporalmente

POEX: Hacia ataques de fuga de políticas ejecutables contra robots basados en LLM

B-VLLM: Un modelo de lenguaje de gran tamaño con tokens espacio-temporales equilibrados

LoRA.rar: Aprendiendo a fusionar LoRAs mediante hiperredes para la generación de imágenes condicionadas según el estilo del sujeto

Comprensión y mitigación de la memorización en modelos generativos mediante la nitidez de los paisajes de probabilidad

Personalización de textos científicos impulsada por IA para el público general

Conversión de voz de disparo cero mediante conjunto de timbres con reconocimiento de contenido y coincidencia de flujo condicional

EfficientEQA: Un enfoque eficiente para la respuesta a preguntas con vocabulario abierto

UoMo: Un modelo universal de pronóstico de tráfico móvil para la optimización de redes inalámbricas

MaCP: Adaptación mínima pero poderosa mediante proyección jerárquica de coseno

Exploración de la representación espacial para mejorar el razonamiento LLM en la navegación aérea con visión y lenguaje

Una mirada más cercana al desaprendizaje automático para modelos de lenguaje grandes

Ajuste in situ de modelos de vida silvestre en cámaras trampa con IoT para una adaptación eficiente

Preentrenamiento del lenguaje EEG para una fenotipificación clínica de alta eficiencia de etiquetado

Una práctica de post-entrenamiento en Llama-3 70B con selección óptima de la proporción de mezcla de idiomas adicionales

Modelos de difusión basados en puntuaciones y dirigidos por recompensas mediante aprendizaje q

Cadena de Pensamiento: APriCoT ayuda a pensar despacio

Una encuesta sobre el modelo MoErging: reciclaje y enrutamiento entre expertos especializados para el aprendizaje colaborativo

Sesgo IA-IA: los modelos de lenguaje grandes favorecen las comunicaciones generadas por modelos de lenguaje grandes

LVBench: Un video de referencia extremadamente largo para comprender el rendimiento

De picos a colas pesadas: Desvelando la evolución espectral de las redes neuronales

Cristales rotos, cámaras defectuosas: simulación de muestras adversarias basadas en la física para sistemas de conducción autónoma

Monitoreo en tiempo de ejecución y aplicación de la equidad condicional en IA generativas

Sobre la eficiencia muestral de las abstracciones y la conformación de recompensas basada en el potencial en el aprendizaje por refuerzo

Un poco de libertad rinde mucho: algoritmos clásicos y cuánticos para el aprendizaje por refuerzo bajo un modelo generativo

Created by

Haebom

Autor

Andris Ambainis, Joao F. Doriguello, Debbie Lim

Describir

Este artículo propone nuevos algoritmos clásicos y cuánticos en línea para procesos de decisión de Markov (MDP) de recompensa media de horizonte finito e infinito. El algoritmo propuesto se basa en un modelo híbrido de aprendizaje por refuerzo (AR) exploratorio-generativo, en el que los agentes pueden interactuar libremente con el entorno, en ocasiones mediante muestreo generativo (es decir, accediendo a un simulador). Mediante el uso de algoritmos clásicos y cuánticos para aproximar políticas óptimas en modelos generativos, demostramos que, al calcular y utilizar directamente políticas óptimas, evitamos varios paradigmas de AR, como el "optimismo bajo incertidumbre" y el "muestreo posterior", y obtenemos límites de arrepentimiento más precisos que estudios previos. Para MDP de horizonte finito, el algoritmo cuántico obtiene un límite de arrepentimiento que depende únicamente logarítmicamente del número de pasos de tiempo T, superando así el límite clásico $O(\sqrt{T})$. Esto es coherente con la dependencia temporal de estudios cuánticos previos de Ganguly et al. (arXiv'23) y Zhong et al. (ICML'24), pero con una dependencia mejorada de otros parámetros, como el tamaño S del espacio de estados y el tamaño A del espacio de acción. Para MDP de horizonte infinito, los límites clásicos y cuánticos aún mantienen la dependencia $O(\sqrt{T})$, pero presentan mejores coeficientes S y A. No obstante, proponemos una nueva métrica de arrepentimiento para MDP de horizonte infinito, que demuestra que los algoritmos cuánticos tienen un arrepentimiento $\operatorname{poly}\log{T}$ exponencialmente mejor que los algoritmos clásicos. Finalmente, generalizamos todos los resultados a espacios de estados compactos.

Takeaways, Limitations

•

Takeaways:

◦

Presentamos un algoritmo cuántico que supera el límite clásico $O(\sqrt{T})$ en MDP de horizonte finito.

◦

Evitar el paradigma de los algoritmos de aprendizaje de refuerzo existentes (optimismo, muestreo posterior) y calcular directamente la política óptima para mejorar el límite de arrepentimiento.

◦

Una nueva métrica de arrepentimiento para MDP de horizonte infinito y la consecución de un arrepentimiento $\operatorname{poly}\log{T}$ para algoritmos cuánticos.

◦

Generalizando los resultados a espacios de estados compactos.

•

Limitations:

◦

Se asume la accesibilidad a modelos generativos (simuladores). Se requiere más investigación para determinar su aplicabilidad en entornos reales.

◦

Se necesita más investigación sobre la implementación práctica y la evaluación del rendimiento de los algoritmos cuánticos.

◦

No se puede garantizar la optimalidad para una configuración de problema específica. (Implica Limitations)

Ver PDF

Made with Slashpage