Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Texto a SQL de extremo a extremo con selección de conjuntos de datos: aprovechamiento de LLM para la generación de consultas adaptativas

Fourier-VLM: Compresión de tokens de visión en el dominio de frecuencia para modelos de lenguaje de visión de gran tamaño

LAG: Generación aumentada lógicamente desde una perspectiva cartesiana

Eco: Desacoplamiento de la inferencia y el entrenamiento para la alineación RL a gran escala en enjambres heterogéneos

FDC-Net: Repensando la asociación entre la eliminación de artefactos EEG y la computación afectiva multidimensional

Equidad en la síntesis del habla disártrica: comprensión del sesgo intrínseco en la clonación del habla disártrica mediante F5-TTS

RCR-Router: Enrutamiento contextual eficiente y basado en roles para sistemas LLM multiagente con memoria estructurada

DS$^2$Net: Red de supervisión profunda semántica de detalles para la segmentación de imágenes médicas

LLMDistill4Ads: Uso de codificadores cruzados para extraer señales LLM y obtener recomendaciones de frases clave de anunciantes en eBay

Cuando los coches tienen estereotipos: auditoría del sesgo demográfico en objetos a partir de modelos de texto a imagen

HiTeC: Aprendizaje contrastivo jerárquico en hipergrafos atribuidos a texto con aumento consciente de la semántica

SpectrumFM: Redefiniendo la cognición del espectro mediante el modelado de bases

Cirugía dinámica asistida por robot con segmentación semántica incremental de clases jerárquicas

Un nuevo modelo de lenguaje para predecir resultados de eventos adversos graves en ensayos clínicos a partir de sus registros prospectivos

Un poco de libertad rinde mucho: algoritmos clásicos y cuánticos para el aprendizaje por refuerzo bajo un modelo generativo

ALLoyM: Un modelo de lenguaje amplio para la predicción de diagramas de fases de aleación

Aprendizaje de visemas fonéticos dependientes del contexto para mejorar la animación facial 3D basada en el habla

¿Están los modelos de Vision Foundation preparados para el registro de imágenes médicas listas para usar?

SystolicAttention: fusión de FlashAttention en una única matriz sistólica

RAPNet: una red neuronal convolucional adaptativa de campo receptivo para pansharpening

AMix-1: Un camino hacia un modelo de base proteica escalable en tiempo de prueba

Superando la última milla de la predicción: mejora de la previsión de series temporales con correspondencia de flujo guiada condicional

Speckle2Self: Reducción de moteado por ultrasonido autosupervisada sin datos limpios

LIRA: Inferencia de segmentación en grandes modelos multimodales con asistencia de regiones intercaladas locales

Abordar los efectos devastadores del envenenamiento de datos de una sola tarea en el aprendizaje continuo sin ejemplos

Modelos de base versus modelos específicos de dominio: comparación de rendimiento, fusión y explicabilidad en el reconocimiento facial

Optimalidad probabilística para el escalamiento en tiempo de inferencia

ARAG: Generación aumentada de recuperación agéntica para recomendaciones personalizadas

Explorando las ventajas y desventajas del diseño de adaptadores para la generación de música con bajos recursos

CycleDistill: Arranque de la traducción automática mediante LLM con destilación cíclica

Detección robusta de anomalías en el tráfico de red: evaluación de modelos de aprendizaje automático en CICIDS2017

Clonación robusta del comportamiento mediante regularización global de Lipschitz

K-medias de múltiples núcleos inducidas por bolas granulares

DRAMA-X: Un punto de referencia de predicción de intenciones y razonamiento de riesgos de grano fino para la conducción

MMET: Un transformador multientrada y multiescala para la resolución eficiente de ecuaciones diferenciales parciales (EDP)

Un método de optimización de dos etapas para la detección magnética cuántica de un solo electrón de amplio rango

Transformador con base en la física y con capacidad de teleconexión para pronósticos globales subestacionales a estacionales

Compromisos generados por IA para la formación de coaliciones

MLOps con microservicios: un estudio de caso en el ámbito marítimo

El ganador se lo lleva todo en la predicción de series temporales probabilísticas multivariadas

Saltos más allá de lo visible: Razonamiento reforzado, generación aumentada de notas clínicas

Aprendiendo a diagnosticar de forma privada: LLM con tecnología de DP para la clasificación de informes de radiología

HERGC: Representación de expertos heterogéneos y compleción generativa para gráficos de conocimiento multimodales

Hombre lobo verbal: Involucra a los usuarios con un marco de juego de hombre lobo verbalizado y agente

MaCP: Adaptación mínima pero poderosa mediante proyección jerárquica de coseno

CADRE: Garantía personalizable de disponibilidad de datos en el aprendizaje federado que preserva la privacidad

FP4 All the Way: Formación totalmente cuantificada de LLM

Mejora de los resultados de LLM contra ataques de jailbreak con la integración de modelos expertos

Extracción de conocimiento probabilístico de grandes modelos lingüísticos para la parametrización de redes bayesianas

RIDGECUT: Aprendiendo la partición de gráficos con anillos y cuñas

Pérdida uniforme vs. optimización especializada: un análisis comparativo en el aprendizaje multitarea

¿Pueden las estrategias de inversión financiera basadas en LLM superar al mercado en el largo plazo?

Un enfoque de aprendizaje profundo multimodal para la predicción de la forma de la materia blanca en la tractografía de resonancia magnética de difusión

La escasez supera las proyecciones de bajo rango en la adaptación de pocos intentos

Aprendizaje de representación multimodal de proteínas jerárquicas bidireccionales

Cómo la formación posterior transforma los LLM: una visión mecanicista del conocimiento, la veracidad, el rechazo y la confianza

$\Mu$KE: Edición de conocimiento no estructurado de Matryoshka de modelos de lenguaje grandes

Aprendiendo simuladores 3D-gaussianos a partir de videos RGB

Aprendizaje del agarre diestro adaptativo a partir de demostraciones individuales

Una teoría del aprendizaje con cadena de pensamiento autorregresiva

FunGraph: Gráficos de escenas 3D con funcionalidades para interacción entre escenas basada en el lenguaje

De la reutilización a la previsión: Aceleración de los modelos de difusión con TaylorSeers

ElementaryNet: Una red neuronal no estratégica para predecir el comportamiento humano en juegos de forma normal

Razonamiento colectivo entre estudiantes de maestría en derecho: un marco para la validación de respuestas sin verdad fundamental

Avances en la síntesis de imágenes médicas con IA: perspectivas del desafío MedVQA-GI con CLIP, difusión estable optimizada y Dream-Booth + LoRA

Predicción de la depresión en entrevistas de detección mediante la colaboración interactiva multitemática

Razonamiento de gráficos de escena guiados por esquemas basado en un sistema de modelos de lenguaje grande multiagente

MQuant: Liberando el potencial de inferencia de los modelos de lenguaje multimodales grandes mediante la cuantificación estática completa

Mitigación de las oscilaciones de tráfico en flujos de tráfico mixto con control predictivo Koopman profundo y escalable

Mejorar la clasificación de su modelo en Chatbot Arena mediante la manipulación de votos

FIT-Print: Hacia una verificación de propiedad de modelos resistente a reclamaciones falsas mediante huellas dactilares específicas

La atención de Softplus con reponderación mejora la extrapolación de longitud en modelos de lenguaje grandes

Rango de Ehrenfeucht-Haussler y cadena de pensamiento

WebWalker: Evaluación comparativa de LLM en navegación web

IA generativa para animación de celuloide: una encuesta

Hacia una nube inteligente y segura: un modelo de lenguaje amplio que potencia la defensa proactiva

Aumento de MomentMix con DETR con reconocimiento de longitud para una recuperación de momentos robusta temporalmente

POEX: Hacia ataques de fuga de políticas ejecutables contra robots basados en LLM

B-VLLM: Un modelo de lenguaje de gran tamaño con tokens espacio-temporales equilibrados

LoRA.rar: Aprendiendo a fusionar LoRAs mediante hiperredes para la generación de imágenes condicionadas según el estilo del sujeto

Comprensión y mitigación de la memorización en modelos generativos mediante la nitidez de los paisajes de probabilidad

Personalización de textos científicos impulsada por IA para el público general

Conversión de voz de disparo cero mediante conjunto de timbres con reconocimiento de contenido y coincidencia de flujo condicional

EfficientEQA: Un enfoque eficiente para la respuesta a preguntas con vocabulario abierto

UoMo: Un modelo universal de pronóstico de tráfico móvil para la optimización de redes inalámbricas

MaCP: Adaptación mínima pero poderosa mediante proyección jerárquica de coseno

Exploración de la representación espacial para mejorar el razonamiento LLM en la navegación aérea con visión y lenguaje

Una mirada más cercana al desaprendizaje automático para modelos de lenguaje grandes

Ajuste in situ de modelos de vida silvestre en cámaras trampa con IoT para una adaptación eficiente

Preentrenamiento del lenguaje EEG para una fenotipificación clínica de alta eficiencia de etiquetado

Una práctica de post-entrenamiento en Llama-3 70B con selección óptima de la proporción de mezcla de idiomas adicionales

Modelos de difusión basados en puntuaciones y dirigidos por recompensas mediante aprendizaje q

Cadena de Pensamiento: APriCoT ayuda a pensar despacio

Una encuesta sobre el modelo MoErging: reciclaje y enrutamiento entre expertos especializados para el aprendizaje colaborativo

Sesgo IA-IA: los modelos de lenguaje grandes favorecen las comunicaciones generadas por modelos de lenguaje grandes

LVBench: Un video de referencia extremadamente largo para comprender el rendimiento

De picos a colas pesadas: Desvelando la evolución espectral de las redes neuronales

Cristales rotos, cámaras defectuosas: simulación de muestras adversarias basadas en la física para sistemas de conducción autónoma

Monitoreo en tiempo de ejecución y aplicación de la equidad condicional en IA generativas

Sobre la eficiencia muestral de las abstracciones y la conformación de recompensas basada en el potencial en el aprendizaje por refuerzo

Eco: Desacoplamiento de la inferencia y el entrenamiento para la alineación RL a gran escala en enjambres heterogéneos

Created by

Haebom

Autor

Jie Xiao, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai, Shaoduo Gan

Describir

Este artículo destaca las limitaciones de los enfoques existentes que realizan inferencia y optimización de políticas en el mismo clúster de GPU durante el post-entrenamiento de modelos de lenguaje a gran escala (LLM) basado en aprendizaje por refuerzo. Este enfoque viola el supuesto de "Programa Único, Múltiples Datos" (SPMD) y, por lo tanto, reduce la eficiencia. Por lo tanto, proponemos un sistema de aprendizaje por refuerzo llamado Echo, que mantiene la eficiencia estadística separando la inferencia y el entrenamiento en enjambres heterogéneos de "inferencia" y "entrenamiento". Echo introduce dos protocolos de sincronización ligeros: un modo de extracción secuencial, que actualiza los pesos de las políticas según las llamadas a la API para minimizar el sesgo, y un modo de inserción-extracción asíncrono, que transmite las implementaciones etiquetadas por versión a través de un búfer de reproducción para maximizar la utilización del hardware. El entrenamiento de tres tareas representativas de aprendizaje por refuerzo en clústeres distribuidos geográficamente utilizando Qwen3-4B, Qwen2.5-7B y Qwen3-32B revela que Echo alcanza una velocidad de convergencia y un rendimiento de recompensa final comparables a los de una línea base Verl completamente coubicada, a la vez que descarga las tareas de inferencia al hardware de borde común. Estos resultados demuestran que el aprendizaje de refuerzo LLM a gran escala puede lograr un rendimiento a nivel de centro de datos utilizando recursos distribuidos y heterogéneos.

Takeaways, Limitations

•

Takeaways:

◦

En el aprendizaje de refuerzo para modelos lingüísticos a gran escala, disociar la inferencia del entrenamiento presenta el potencial de aprovechar de manera eficiente recursos heterogéneos y distribuidos geográficamente.

◦

Descargue las tareas de inferencia al hardware de borde para reducir costos y mantener el rendimiento a nivel de centro de datos.

◦

El modo de extracción secuencial y el modo de inserción-extracción asincrónico le permiten maximizar la utilización del hardware mientras mantiene la eficiencia estadística.

•

Limitations:

◦

Se necesitan más investigaciones para investigar la escalabilidad del sistema Echo propuesto y su compatibilidad con varios LLM.

◦

Se requiere un análisis detallado de los retrasos en las comunicaciones y el manejo de errores que pueden ocurrir en entornos distribuidos geográficamente.

◦

Se requieren evaluaciones de rendimiento adicionales en varios entornos de hardware.

Ver PDF

Made with Slashpage