[공지사항]을 빙자한 안부와 근황

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

EgoVLA: Aprendizaje de modelos de visión, lenguaje y acción a partir de vídeos de personas egocéntricas

Código latente discreto composicional para modelos de difusión productivos de alta fidelidad

Código MERA: un marco unificado para evaluar la generación de código en distintas tareas

Ajuste fino a nivel de sitio con congelación progresiva de capas: hacia una predicción robusta de la displasia broncopulmonar a partir de radiografías de tórax del primer día en bebés extremadamente prematuros

Una hoja de ruta para la investigación robótica relevante para el clima

La imparcialidad no es suficiente: auditoría de competencias y sesgo interseccional en la selección de currículos con inteligencia artificial

MMOne: Representación de múltiples modalidades en una sola escena

SWE-MERA: Un punto de referencia dinámico para la evaluación de modelos lingüísticos de gran tamaño en tareas de ingeniería de software

CodeAssistBench (CAB): Conjunto de datos y evaluación comparativa para la asistencia de código basada en chat multiturno

Costura de modelos de base con modalidad (casi) libre

Un método de segmentación de tumores cerebrales basado en CLIP y 3D U-Net con guía semántica intermodal y fusión de características multinivel

KEN: Red de aumento del conocimiento y guía emocional para la detección multimodal de noticias falsas

THOR: Heurísticas de transformadores para la recuperación a demanda

SEALGuard: Protección de conversaciones multilingües en idiomas del sudeste asiático para sistemas de software LLM

KeyRe-ID: Reidentificación de personas guiada por puntos clave mediante representación parcial en vídeos

Las perturbaciones inmediatas revelan sesgos similares a los humanos en las respuestas de la encuesta LLM

Gemini 2.5: Ampliando la frontera con razonamiento avanzado, multimodalidad, contexto amplio y capacidades de agencia de próxima generación

Teleoperación bilateral rápida y aprendizaje por imitación mediante control de fuerza sin sensores mediante un modelo dinámico preciso

Destilación de conjuntos de datos generativos específicos de la tarea con muestreo guiado por dificultad

VIDEO: Descomposición, ejecución y evaluación visual e interactiva de análisis de texto con agentes inteligentes

ReCode: Actualización del conocimiento de la API de código con aprendizaje de refuerzo

Descubrimiento de conceptos discretos entre capas para la interpretación de modelos lingüísticos

Ataques generativos conscientes de la estructura semántica para una mejor transferibilidad adversarial

MEM1: Aprendiendo a sinergizar la memoria y el razonamiento para agentes eficientes de largo horizonte

Entrenamiento basado en la población de múltiples frecuencias

Crítica-GRPO: Avances en el razonamiento LLM con lenguaje natural y retroalimentación numérica

¿Perfeccionar un SLM o impulsar un LLM? El caso de la generación de flujos de trabajo de bajo código

ContextQFormer: Un nuevo método de modelado de contexto para conversaciones multimodales de múltiples turnos

La portabilidad del rendimiento de la GPU necesita autoajuste

Generación de datos sintéticos mediante aumentos para mejorar el parecido facial en DreamBooth e InstantID

Protocolo Coral: Infraestructura abierta que conecta la Internet de los agentes

MAC-Tuning: LLM Razonamiento de Problemas Multicomposicionales con Conciencia Mejorada de los Límites de Conocimiento

Aprendizaje federado: una encuesta sobre inteligencia colaborativa que preserva la privacidad

ConTextual: Mejora de la síntesis de textos clínicos en LLM con filtrado de tokens que preserva el contexto y gráficos de conocimiento

Cuantización de circuitos de tareas: aprovechamiento de la localización y la interpretabilidad del conocimiento para la compresión

JailDAM: Detección de fugas de la cárcel con memoria adaptativa para el modelo visión-lenguaje

Redes neuronales cuánticas KP

VectorFit: Ajuste fino adaptativo de vectores singulares y sesgados de modelos de base preentrenados

Red de operadores profundos con eficiencia de datos para flujo inestable: un enfoque de fidelidad múltiple con submuestreo guiado por la física

Aprendizaje de patrones universales de movilidad humana con un modelo de base para la fusión de datos entre dominios

GeoFlow-SLAM: Un SLAM robusto de fusión de odometría RGBD-inercial y con patas, estrechamente acoplado, para robótica dinámica con patas.

Un marco multietapa con razonamiento guiado por taxonomía para la clasificación de ocupaciones utilizando modelos lingüísticos amplios

Poda de nodos de múltiples vistas para una representación gráfica precisa

V-Max: Un marco de aprendizaje por refuerzo para la conducción autónoma

Transformación interpretable y análisis de líneas de tiempo mediante el aprendizaje por medio de la sorpresa

ÍNdice de Evaluación Internacional de Gobernanza de la IA (Índice AGILE) 2024

UPCORE: Selección de núcleos que preservan la utilidad para un desaprendizaje equilibrado

Mejora de los modelos de Transformer World para un aprendizaje automático eficiente en el uso de datos

LLM-RecG: Un marco que considera el sesgo semántico para la recomendación secuencial de disparo cero

SIDDA: Adaptación dinámica del dominio SInkhorn para la clasificación de imágenes con redes neuronales equivariantes

Determinación de los corrimientos al rojo fotométricos de galaxias mediante redes generativas antagónicas condicionales (CGAN)

Análisis forense del habla: hacia el establecimiento y análisis integral de conjuntos de datos sintéticos del habla

MRGen: motor de datos de segmentación para modalidades de resonancia magnética subrepresentadas

IOPO: Capacitar a los LLM con el seguimiento de instrucciones complejas mediante la optimización de preferencias de entrada-salida

Recuperación fuera de distribución con política inversa de puntos clave centrada en objetos para el aprendizaje por imitación visomotora

Conjunto de datos resultante del estudio de usuarios sobre la comprensibilidad de algoritmos de IA explicables

Evaluación unificada de alucinaciones a nivel de triplete para modelos de visión y lenguaje de gran tamaño

LoRA Done RITE: Equilibrio de transformación invariante robusto para la optimización de LoRA

Identificación de agrupaciones de tareas para el aprendizaje multitarea mediante información V-Usable puntual

DeFine: Toma de decisiones con razonamiento analógico sobre perfiles factoriales

Clasificación de subgéneros de referencia para la música de baile convencional

Riesgos de ignorar la propagación de la incertidumbre en los procesos de seguridad aumentados por IA

MedPix 2.0: Un conjunto integral de datos biomédicos multimodales para aplicaciones avanzadas de IA con recuperación, generación aumentada y gráficos de conocimiento

Aprovechamiento de la superposición cuántica para inferir el comportamiento dinámico de un modelo de señalización de red neuronal espacio-temporal

Limitando el error de peor clase: un enfoque de refuerzo

TBDetector: Detector basado en transformadores para amenazas persistentes avanzadas con gráfico de procedencia

Sistemas de aprendizaje automático: un estudio desde una perspectiva orientada a los datos

Aime: Hacia un marco multiagente totalmente autónomo

SmartThinker: Aprender a comprimir y preservar el razonamiento mediante el control de la longitud paso a paso

Ready Jurist One: Análisis comparativo de agentes lingüísticos para la inteligencia jurídica en entornos dinámicos

NTRL: Generación de encuentros mediante aprendizaje de refuerzo para el ajuste dinámico de la dificultad en Dungeons and Dragons

Juzgar con múltiples mentes: ¿Más perspectivas implican menos prejuicios? Sobre la amplificación de sesgos y la resistencia en el LLM multiagente como juez

ActionStudio: Un marco ligero para datos y entrenamiento de modelos de acción de gran tamaño

BEARCUBS: Un referente para agentes web que utilizan ordenadores

Desmitificando la planificación MuZero: Interpretando el modelo aprendido

LLM - Interacciones mejoradas entre usuarios y artículos: Aprovechamiento de la información de Edge para optimizar las recomendaciones

VideoITG: Comprensión de video multimodal con fundamento temporal instruido

VisionThink: Modelo de lenguaje visual inteligente y eficiente mediante aprendizaje por refuerzo

Desequilibrio en el equilibrio: Concepto en línea Equilibrio en modelos de generación

Dirección de políticas latentes con modelos mundiales preentrenados, independientes de la encarnación

El entrenamiento en visión y lenguaje ayuda a implementar el conocimiento taxonómico pero no lo altera fundamentalmente

Revisando la confiabilidad en el punto de referencia de estimación de pose basada en razonamiento

AbGen: Evaluación de modelos lingüísticos extensos en el diseño y evaluación de estudios de ablación para la investigación científica

Hacia la verificación formal del código generado por LLM a partir de indicaciones de lenguaje natural

Evaluación de algoritmos de aprendizaje por refuerzo para la navegación en cuadrúpedos robóticos simulados: un estudio comparativo inspirado en el comportamiento de los perros guía

Descripción general de TalentCLEF 2025: Inteligencia de habilidades y puestos de trabajo para la gestión del capital humano

QuestA: Ampliación de la capacidad de razonamiento en los LLM mediante el aumento de preguntas

Voxtral

Núcleo de fusión para optimización bayesiana en el espacio de permutación

Adaptación eficiente de un transformador de visión preentrenado sustentado por una estrategia de ajuste fino aproximadamente ortogonal

Automatización de la dirección para modelos lingüísticos grandes multimodales seguros

HATS: Conjunto de pruebas de analogía en hindi para evaluar el razonamiento en modelos lingüísticos amplios

VITA: Política de correspondencia entre el flujo de visión y acción

$S^2M^2$: Modelo de correspondencia estéreo escalable para una estimación de profundidad confiable

Sintetizando la realidad: Aprovechando la plataforma impulsada por IA generativa Midjourney para la detección de trabajadores de la construcción

Alineación de humanos y robots mediante aprendizaje de refuerzo a partir de retroalimentación humana implícita

SHIELD: Un aprendizaje integrado seguro y altamente mejorado para la detección robusta de deepfakes contra ataques adversarios

Inyección inmediata 2.0: Amenazas de la IA híbrida

Orbis: Superando los desafíos de la predicción a largo plazo en modelos de conducción del mundo

El aprendizaje por refuerzo inverso se encuentra con un modelo de lenguaje extenso después del entrenamiento: fundamentos, avances y oportunidades

ReCode: Actualización del conocimiento de la API de código con aprendizaje de refuerzo

Created by

Haebom

Autor

Haoze Wu, Yunzhi Yao, Wenhao Yu, Huajun Chen, Ningyu Zhang

Describir

Este artículo aborda la dificultad de la capacidad de generación de código de los modelos de lenguaje a gran escala (LLM) para adaptarse a las actualizaciones frecuentes de las API de bibliotecas externas. Esto se debe a que los LLM utilizan información obsoleta de la API en sus datos de entrenamiento. Para abordar este problema, proponemos ReCode (aprendizaje de refuerzo basado en reglas para la actualización de código), un novedoso marco que imita la adaptación de los programadores a los cambios de la API. ReCode entrena a los LLM para realizar la migración de versiones basándose en información actualizada utilizando un conjunto de datos de aproximadamente 2000 elementos. También introducimos una métrica de similitud de cadenas modificada como recompensa por el aprendizaje de refuerzo. Los resultados experimentales muestran que ReCode mejora significativamente el rendimiento de la generación de código de los LLM en escenarios de API dinámicas, especialmente en la tarea CodeUpdateArena, aún no vista. En particular, en comparación con el ajuste fino del aprendizaje supervisado, ReCode tiene un menor impacto en la capacidad general de generación de código de los LLM. Aplicamos ReCode a varios LLM y algoritmos de aprendizaje de refuerzo (GRPO y DAPO) y logramos mejoras consistentes en el rendimiento. En particular, tras el entrenamiento, Qwen2.5-Coder-7B superó al modelo de ajuste fino de directivas de código de parámetros 32B y al modelo de inferencia con la misma arquitectura. El código se encuentra en https://github.com/zjunlp/ReCode .

GitHub - zjunlp/ReCode: ReCode: Reinforced Code Knowledge Editing for API Updates

ReCode: Reinforced Code Knowledge Editing for API Updates - zjunlp/ReCode

github.com

Takeaways, Limitations

•

Takeaways:

◦

Presentación de un método eficaz para mejorar el rendimiento de la generación de código en el entorno API dinámico de LLM

◦

El marco ReCode basado en aprendizaje de refuerzo tiene un impacto menos negativo en la capacidad general de generación de código de LLM que el aprendizaje supervisado.

◦

Aplicabilidad a diversos algoritmos de aprendizaje de refuerzo y LLM y verificación de un rendimiento excelente (rendimiento sobresaliente de Qwen2.5-Coder-7B)

◦

Adaptabilidad mejorada a las actualizaciones de API del mundo real

•

Limitations:

◦

Es necesario ampliar el tamaño del conjunto de datos, ya que actualmente está entrenado con 2000 elementos de datos.

◦

Se necesita más investigación sobre el rendimiento de generalización en diferentes API y lenguajes de programación.

◦

Necesidad de revisar la estabilidad y mantenibilidad a largo plazo de ReCode en entornos reales

◦

Limitaciones y potencial de mejora de la métrica de similitud de cadenas utilizada

Ver PDF

Made with Slashpage