Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MoSEs: Detección de texto generada por IA con conocimiento de la incertidumbre mediante la combinación de expertos en estilística con umbrales condicionales

Decodificación de evitación para la generación de historias diversas de múltiples ramas

HydroVision: Predicción de parámetros ópticamente activos en aguas superficiales mediante visión artificial

HodgeFormer: Transformadores para operadores aprendibles en mallas triangulares mediante matrices de Hodge basadas en datos

MSA2-Net: Utilización de un módulo de convolución autoadaptativo para extraer información multiescala en la segmentación de imágenes médicas

Recableado adaptativo impulsado por Q-Learning para el control cooperativo en redes heterogéneas

Spotlighter: Revisando el ajuste de indicaciones desde una perspectiva de minería representativa

RAG iterativo multimodal para la respuesta visual a preguntas de conocimiento

IA encarnada: riesgos emergentes y oportunidades para la acción política

El metaaprendizaje de antecedentes ecológicos a partir de grandes modelos lingüísticos explica el aprendizaje y la toma de decisiones humanos

Difusión de andamios: generación de estructuras de vóxeles dispersas de múltiples categorías con difusión discreta

Locus: Síntesis de predicados agentes para fuzzing dirigido

Indicadores a nivel de red y fugas de rasgos en agentes de investigación locales

La dinámica de la información de la difusión generativa

Redes neuronales ternarias impresas con precisión arbitraria y aproximación evolutiva holística

Murakkab: Orquestación de flujos de trabajo de agentes eficiente en el uso de recursos en plataformas de nube

LinkAnchor: un agente autónomo basado en LLM para la recuperación de enlaces de emisión a confirmación

MoNaCo: Preguntas más naturales y complejas para razonar a través de decenas de documentos

STREAM (ChemBio): Un estándar para la presentación transparente de informes de evaluaciones en informes de modelos de IA

BadPromptFL: Una nueva amenaza de puerta trasera para el aprendizaje federado basado en indicaciones en modelos multimodales

Aprendiendo a seleccionar algoritmos MCP: del aprendizaje automático tradicional al GAT-MLP de doble canal

MagicGUI: un agente GUI móvil fundamental con canalización de datos escalable y ajuste de refuerzo

Una capa neurosimbólica inspirada en DbC para el diseño de agentes confiables

RoboMemory: Un marco de trabajo multimemoria basado en la agencia para el aprendizaje permanente en sistemas físicos encarnados.

LanternNet: un sistema de concentrador y radios para buscar y eliminar poblaciones de moscas linterna moteadas

¿Cuándo y dónde atacan los venenos de datos la inversión textual?

Cubriendo algunas restricciones y aplicaciones submodulares

Repensando la protección de datos en la era de la inteligencia artificial (generativa)

LD-RPS: Restauración unificada de imágenes de disparo cero mediante muestreo posterior recurrente por difusión latente

GroundingDINO-US-SAM: Segmentación multiorgánica basada en texto en ultrasonido con modelos de visión y lenguaje optimizados para LoRA

IndexTTS2: Un avance en la conversión de texto a voz autorregresiva de cero disparos, emocionalmente expresiva y con control de duración.

HERCULES: Agrupamiento recursivo basado en incrustación jerárquica mediante LLM para un resumen eficiente

Vinculación de imágenes médicas multimodales mediante incrustaciones de texto compartidas

Segmentación panóptica LiDAR de conjunto abierto guiada por aprendizaje consciente de la incertidumbre

Revisando la agrupación de bandidos neuronales: reinicialización selectiva para mitigar la pérdida de plasticidad

Atribución basada en incrustación (LEA) de LLM: cuantificación de las contribuciones de las fuentes a la respuesta del modelo generativo para el análisis de vulnerabilidades

Un marco teórico para el aprendizaje contrastivo autosupervisado para datos dependientes continuos

Protección de agentes de IA mediante el control del flujo de información

FastCache: Almacenamiento rápido en caché para transformadores de difusión mediante aproximación lineal aprendible

Cog-TiPRO: Refinamiento iterativo de indicaciones con LLM para detectar el deterioro cognitivo mediante comandos longitudinales del asistente de voz

Descubra descripciones de múltiples imágenes para la detección del deterioro cognitivo leve multilingüe mediante aprendizaje contrastivo

NOVER: Entrenamiento de incentivos para modelos lingüísticos mediante aprendizaje de refuerzo sin verificador

Cuando un agente de aprendizaje de refuerzo se encuentra con incógnitas desconocidas

Optimización de políticas de grupo dentro de grupo para la capacitación de agentes LLM

Análisis automatizado de planos de ingeniería para la extracción de información estructurada mediante un transformador de comprensión de documentos optimizado

LawFlow: Recopilación y simulación de procesos de pensamiento de abogados sobre casos prácticos de constitución de empresas

Sobre la autodeclaración de los desarrolladores de código generado por IA: un análisis de las prácticas

WildFireCan-MMD: Un conjunto de datos multimodales para la clasificación de contenido generado por el usuario durante incendios forestales en Canadá

Hacia los modelos básicos de resonancia magnética cardíaca: representaciones visuales y tabulares integrales para la evaluación de todo el corazón y más allá

HDVIO2.0: Estimación de viento y perturbaciones con Hybrid Dynamics VIO

TruthLens: Base visual para el razonamiento universal sobre deepfakes

Impoola: El poder de la agrupación de promedios para el aprendizaje de refuerzo profundo basado en imágenes

Edición eficiente de modelos de mezcla de expertos con expertos comprimidos

¿Problema resuelto? Espacio de diseño de extracción de información para documentos con maquetación enriquecida mediante LLM.

Investigación de un enfoque independiente del modelo y libre de imputación para el modelado de series temporales multivariadas con muestreo irregular

Aprendizaje rápido de palabras mediante el aprendizaje meta en contexto

FedP$^2$EFT: Aprendizaje federado para personalizar PEFT para LLM multilingües

Predecir, agrupar, refinar: un marco predictivo autosupervisado de integración conjunta para el aprendizaje de la representación gráfica

Encuesta sobre el reconocimiento de gestos de las manos a partir de información visual

Autorreflexión guiada por la atención para la detección de alucinaciones de disparo cero en modelos lingüísticos de gran tamaño

RouteNet-Gauss: Modelado de redes mejorado por hardware con aprendizaje automático

GalaxAlign: Imitando la guía multimodal de los científicos ciudadanos para el análisis de la morfología de galaxias

Soft-TransFormers para el aprendizaje continuo

Explorando la incertidumbre de la respuesta en los MLLM: una evaluación empírica bajo escenarios engañosos

TreeBoN: Mejora de la alineación en el tiempo de inferencia con búsqueda de árboles especulativa y muestreo del mejor de N

Aprendizaje de la representación de la consistencia del dominio para la reidentificación de la persona a lo largo de la vida

Alineación de representaciones visuales humanas y de máquinas en todos los niveles de abstracción

Hacia una IA agente en aceleradores de partículas

Mejora del rendimiento de la inferencia del lenguaje natural con Knowledge Graph para la verificación automatizada de datos sobre la COVID-19 en idioma indonesio.

Mooncake: una arquitectura desagregada centrada en KVCache para el servicio LLM

Para eliminar las alucinaciones de LLM es necesario repensar la generalización

SampleAttention: Aceleración casi sin pérdidas de la inferencia LLM de contexto largo con atención dispersa estructurada adaptativa

MF-OML: Aprendizaje de refuerzo de campo medio en línea con medidas de ocupación para juegos de gran población

Marco explicable de seguridad y protección de la privacidad basado en aprendizaje automático para sistemas de Internet de las cosas médicas

De las métricas al significado: es hora de repensar la evaluación en el diseño colaborativo entre humanos e IA

P2DT: Mitigación del olvido en el aprendizaje incremental de tareas con un transformador de decisión progresivo y rápido

Hacia Agentic OS: Un marco de agente LLM para programadores de Linux

CoreThink: una capa de razonamiento simbólico para razonar sobre tareas de horizonte largo con LLM

ChatCLIDS: Simulación de diálogos persuasivos con IA para promover la adopción de insulina en circuito cerrado en la atención de la diabetes tipo 1

L-MARS: Flujo de trabajo multiagente legal con razonamiento orquestado y búsqueda agéntica

AHELM: Una evaluación holística de los modelos de audio-lenguaje

La máquina pensante de Ramon Llull para la ideación automatizada

Asignación de créditos basada en búsquedas para el aprendizaje de refuerzo basado en preferencias fuera de línea

KIRETT: Asistente de tratamiento inteligente basado en gráficos de conocimiento para operaciones de rescate inteligentes

CoT-Self-Instruct: Creación de indicaciones sintéticas de alta calidad para tareas de razonamiento y no razonamiento

Integración de predicciones de actividad en gráficos de conocimiento

Agentes simbióticos: un nuevo paradigma para redes confiables impulsadas por IA general

ChordPrompt: Orquestando la sinergia de indicaciones intermodales para el aprendizaje incremental multidominio en CLIP

Agentes de investigación profunda: un examen sistemático y una hoja de ruta

Gradientes: Cuando los mercados se encuentran con el ajuste fino: un enfoque distribuido para la optimización de modelos

ORMind: Un marco de razonamiento integral de inspiración cognitiva para la investigación de operaciones

Agentes apagables a través de POST-Agencia

CyberBOT: Hacia una educación confiable en ciberseguridad mediante la generación aumentada de recuperación basada en ontologías

PadChest-GR: Un conjunto de datos bilingüe de rayos tórax X para la generación de informes de radiología basados en la tierra

¿Pueden los modelos de lenguaje grandes actuar como ensambladores para múltiples GNN?

MorphAgent: Empoderamiento de agentes mediante perfiles autoevolutivos y colaboración descentralizada

Inferencia frugal para el control

Sobre la generación de explicaciones monolíticas y de conciliación de modelos en escenarios probabilísticos

Una encuesta sobre la colaboración entre humanos e IA con grandes modelos de cimentación

JARVIS: Un marco de razonamiento neurosimbólico de sentido común para agentes conversacionales encarnados

Optimización de políticas de grupo dentro de grupo para la capacitación de agentes LLM

Created by

Haebom

Autor

Lang Feng, Zhenghai Xue, Tingcong Liu, Bo An

Describir

Este artículo propone la Optimización de Políticas de Grupo dentro de Grupo (GiGPO), un novedoso algoritmo que aborda los desafíos de escalabilidad del entrenamiento de agentes de modelos de lenguaje (LLM) a largo plazo y a gran escala mediante aprendizaje por refuerzo (RL) basado en grupos. Si bien mantiene las ventajas del RL basado en grupos existente (sin evaluador, bajo consumo de memoria y convergencia estable), logra una asignación de créditos precisa a nivel de etapa mediante una estructura jerárquica que calcula las ventajas relativas tanto a nivel de episodio como de etapa. A nivel de episodio, la ventaja relativa macroscópica se calcula a partir de grupos de trayectorias completadas, mientras que a nivel de etapa, la ventaja relativa microscópica se estima mediante la introducción de un mecanismo de agrupación de estados de anclaje que identifica estados ambientales recurrentes y construye inversamente grupos a nivel de etapa. Las evaluaciones en los benchmarks ALFWorld y WebShop utilizando Qwen2.5-1.5B-Instruct y Qwen2.5-7B-Instruct demuestran mejoras de rendimiento superiores al 12 % en ALFWorld y al 9 % en WebShop, en comparación con las líneas base de GRPO existentes. Este enfoque mantiene la misma sobrecarga de memoria de GPU y la misma implementación de LLM, con poca o ninguna sobrecarga de tiempo adicional.

Takeaways, Limitations

•

Takeaways:

◦

Presentamos GiGPO, un novedoso algoritmo RL eficiente que aborda el problema de escalabilidad del entrenamiento de agentes LLM a largo plazo.

◦

Permite una asignación de créditos detallada y paso a paso, manteniendo al mismo tiempo las ventajas del RL basado en grupos existente.

◦

Mejora del rendimiento verificada experimentalmente con respecto a los algoritmos existentes en los puntos de referencia ALFWorld y WebShop.

◦

Consiga mejoras de rendimiento sin consumo adicional de memoria o tiempo.

•

Limitations:

◦

El rendimiento del algoritmo propuesto puede estar limitado a LLM y puntos de referencia específicos.

◦

Se necesita un análisis comparativo más amplio con otros algoritmos RL.

◦

Se necesitan más investigaciones sobre la generalidad del mecanismo de agrupación de estados de anclaje y su aplicabilidad a diversos entornos.

◦

La evaluación del desempeño es necesaria en entornos complejos o en horizontes temporales más largos.

Ver PDF

Made with Slashpage