Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

PRIX: Aprendiendo a planificar desde cero para la conducción autónoma de extremo a extremo

Swin-TUNA: Un novedoso enfoque PEFT para la segmentación precisa de imágenes de alimentos

EarthLink: Un agente de IA autoevolutivo para la ciencia del clima

Proxy de realidad: Interacciones fluidas con objetos del mundo real en realidad mixta mediante representaciones abstractas

Aprovechamiento de señales heterogéneas y de múltiples fuentes para la detección de fatiga

Bondad de pronunciación sin segmentación

Marco de estimación de pose relativa adaptativa con ajuste de ruido dual para maniobras de aproximación seguras

Coordinación compositiva para equipos multi-robot con modelos lingüísticos extensos

La difusión supera a la autorregresión en entornos con limitaciones de datos

El nuevo cuello de botella del LLM: una perspectiva sistémica sobre la atención latente y la mezcla de expertos

EndoControlMag: Ampliación robusta del movimiento vascular endoscópico con restablecimiento periódico de referencia y control jerárquico de doble máscara con reconocimiento de tejido

Redes neuronales de gráficos de larga y corta distancia y mejora del aprendizaje curricular para el reconocimiento de emociones en la conversación

Omni-Thinker: Escalamiento de la generalización entre dominios en LLM mediante aprendizaje a distancia multitarea con recompensas híbridas

GCC-Spam: Detección de spam mediante GAN, aprendizaje contrastivo y redes de similitud de caracteres

SDSC: Una métrica consciente de la estructura para el aprendizaje de la representación de señales semánticas

Los LLM multilingües no son pensadores multilingües: evidencia de la evaluación de analogías con hindi

Modulación de la atención dinámica de frecuencia para la predicción densa

Una encuesta sobre aprendizaje profundo para la resolución de problemas de geometría

Modelos de la Fundación EEG: Una revisión crítica del progreso actual y las direcciones futuras

Inversión-DPO: Post-entrenamiento preciso y eficiente para modelos de difusión

Un marco PBN-RL-XAI para descubrir una estrategia terapéutica de “golpe y fuga” en el melanoma

Prioridades de tareas: mejora de la evaluación del modelo al considerar todo el espacio de tareas posteriores

OrQstrator: Un marco impulsado por IA para la optimización avanzada de circuitos cuánticos

Un estudio exhaustivo de la clasificación de argumentos basada en LLM: desde LLAMA pasando por GPT-4o hasta Deepseek-R1

Indicadores mecanicistas de comprensión en modelos lingüísticos amplios

Adaptación del aprendizaje real a vídeos largos

Teleoperación bilateral rápida y aprendizaje por imitación mediante control de fuerza sin sensores mediante un modelo dinámico preciso

Autocodificadores enmascarados que perciben el corazón: revelando el sesgo de simplicidad en los análisis de ECG

SyncMapV2: Segmentación no supervisada robusta y adaptativa

Dinámica web LLM: Seguimiento del colapso del modelo en una red de LLM

¿Por qué se producen efectos de evaluación dependientes de la clase con la atribución de características de series temporales? Una investigación con datos sintéticos

Difuso y disperso: generación de imágenes con regularización de representación

LLM-D12: Una escala bidimensional de dependencias instrumentales y relacionales en grandes modelos lingüísticos

MambaNeXt-YOLO: Un modelo híbrido de espacio de estados para la detección de objetos en tiempo real

PALADIN: Huella neuronal robusta para modelos de difusión de texto a imagen

Aprendizaje de refuerzo en línea basado en resultados: algoritmos y límites fundamentales

Soluciones de aprendizaje automático integradas en una plataforma IoT de atención médica para la estratificación del riesgo de insuficiencia cardíaca

Más allá de la descomposición de bajo rango: un enfoque rápido para un aprendizaje eficiente en el dispositivo

Transformadores de visión en la agricultura de precisión: un estudio exhaustivo

PerceptionLM: Datos y modelos de acceso abierto para una comprensión visual detallada

Posición: Una teoría de la identificabilidad con base empírica acelerará la investigación sobre aprendizaje autosupervisado

LagKV: La información relativa al retraso de la caché KV indica qué tokens son importantes

Desencadenante sin rastro: Hacia un ataque de puerta trasera sigiloso en modelos de difusión de texto a imagen

Muestreo logit disperso: aceleración de la destilación del conocimiento en los LLM

Alineando la visión con el lenguaje: Construcción de gráficos de conocimiento multimodal sin anotaciones para un razonamiento mejorado en LLM

Adaptador Att: un adaptador de difusión T2I multiatributos, robusto y preciso, específico de dominio mediante un autocodificador variacional condicional

Cuando un gran modelo de visión y lenguaje se combina con imágenes de teledetección de gran tamaño: Poda de tokens guiada por texto de grueso a fino

Aprendizaje robusto de múltiples vistas mediante la fusión de la representación de la atención a nivel de muestra y la alineación de la perturbación simulada

Abordaje de la alucinación a partir de modelos condicionales para la reconstrucción de imágenes médicas con DynamicDPS

Aprendizaje automático cuántico en medicina de precisión y descubrimiento de fármacos: ¿Un cambio radical para los tratamientos personalizados?

Un modelo de lenguaje general para la identificación de péptidos

ExpliCa: Evaluación del razonamiento causal explícito en modelos lingüísticos amplios

EVEv2: Líneas de base mejoradas para modelos de visión y lenguaje sin codificador

Alineación LLM como optimización del recuperador: una perspectiva de recuperación de información

Pulse-PPG: Un modelo de código abierto de base PPG entrenado en campo para aplicaciones portátiles en entornos de laboratorio y de campo.

Mercado inmobiliario en línea

Aprendizaje y optimización integrados para la gestión de la congestión y la maximización de beneficios en el mercado eléctrico en tiempo real

Integración de evidencia en el diseño de sistemas de apoyo a la toma de decisiones basados en XAI e IA: un marco de medios y fines para usuarios finales en la construcción

Diseño de parámetros escalables para circuitos cuánticos superconductores con redes neuronales gráficas

Un estudio sobre la identificación de causalidad de eventos: taxonomía, desafíos, evaluación y perspectivas

Desclasificación de la máquina correctiva neuronal

Hacia una generalización médica multimodal universal en 3D mediante el aprendizaje de una representación invariante personalizada

Primitivas de variedad de movimiento diferenciables para la generación de movimiento reactivo bajo restricciones cinedinámicas

Ajuste fino de orden cero de LLM en subespacios aleatorios

RUMI: Hurgando con información mutua

Desclasificación de máquinas neuronales

VolDoGer: Conjuntos de datos asistidos por LLM para la generalización de dominios en tareas de visión y lenguaje

Detección de deriva conceptual no supervisada a partir de representaciones de aprendizaje profundo en tiempo real

Un marco de evaluación multifacético para evaluar datos sintéticos generados por grandes modelos lingüísticos

DualXDA: Hacia una atribución de datos dispersa, eficiente y explicable en grandes modelos de IA

Cuantificación de la singularidad y el carácter divisivo del discurso presidencial

DocTER: Evaluación de la edición de conocimiento basada en documentos

Aprendizaje de conceptos definibles en lógica de primer orden con conteo

Reconocimiento y obtención de perfiles de cruces simples débiles en árboles

Compliance Brain Assistant: IA conversacional y agente para asistir en tareas de cumplimiento en entornos empresariales

Aprendizaje de abstracciones temporales mediante homomorfismos variacionales en MDP abstractos inducidos por opciones

Cuando la autonomía se descontrola: preparándose para los riesgos de la colusión multiagente en los sistemas sociales

Un marco integrado de ingeniería rápida y gráficos de conocimiento multidimensionales para el análisis de disputas legales

DisMS-TS: Eliminación de características multiescala redundantes para la clasificación de series temporales

Corrompidos por el razonamiento: los modelos de lenguaje de razonamiento se convierten en oportunistas en los juegos de bienes públicos

Formación de haces y asignación de recursos para la minimización del retardo en sistemas OFDM asistidos por RIS

Influenciabilidad neurodivergente como solución contingente al problema de alineación de la IA

EducationQ: Evaluación de las capacidades docentes de los LLM mediante un marco de diálogo multiagente

SuperARC: una prueba agnóstica para inteligencia limitada, general y superinteligencia basada en los principios de compresión recursiva y probabilidad algorítmica

IPCGRL: Aprendizaje por refuerzo instruido por el lenguaje para la generación de niveles procedimentales

OR-LLM-Agent: Automatización del modelado y la resolución de problemas de optimización de investigación de operaciones con razonamiento LLM

El razonamiento químico en los LLM permite la planificación de síntesis con conciencia de estrategia y la elucidación del mecanismo de reacción.

BEARCUBS: Un referente para agentes web que utilizan ordenadores

De la hipótesis a la publicación: un estudio exhaustivo de los sistemas de apoyo a la investigación basados en IA

HPS: Muestreo de preferencias duras para la alineación de las preferencias humanas

Un método de recompensa diferenciada para algoritmos de toma de decisiones cooperativas de múltiples vehículos basados en aprendizaje de refuerzo

Recuperación de clases de órdenes causales con bases de conocimiento inconsistentes

Sobre la estructura de la procedencia de los juegos y sus aplicaciones

I-CEE: Adaptación de las explicaciones de los modelos de clasificación de imágenes a la experiencia del usuario

SIDA: Adaptación del dominio de disparo cero impulsada por imágenes sintéticas

Síntesis de software 3D guiada por representación intermedia expresiva de restricciones

Mudanza: colaboración entre humanos e IA con base física

SynC: Refinamiento del conjunto de datos de subtítulos de imágenes sintéticas con mapeo de uno a muchos para subtítulos de imágenes de disparo cero

Recuento aproximado de SMT más allá de dominios discretos

DRWKV: Enfoque en los bordes de los objetos para mejorar la imagen con poca luz

Ley de escala del agente RL: Agente RL con ejecución espontánea de código para la resolución de problemas matemáticos

Created by

Haebom

Autor

Xinji Mai, Haotian Xu, Xing W, Weinong Wang, Jian Hu, Yingying Zhang, Wenqiang Zhang

Describir

En este artículo, presentamos una metodología de razonamiento integrado con herramientas de cero disparos (ZeroTIR) que utiliza aprendizaje por refuerzo (AR) para permitir que los modelos de lenguaje a gran escala (LLM) utilicen espontáneamente herramientas externas (ejecución de código Python) y mejoren su capacidad para resolver problemas matemáticos. La clave reside en entrenar al LLM para que genere y ejecute código Python mediante la aplicación de AR con recompensas basadas en resultados, sin ejemplos supervisados de uso de herramientas. Los resultados experimentales muestran que la frecuencia de ejecución espontánea de código, la longitud de la respuesta y la precisión final aumentan positivamente con el aumento de los pasos de entrenamiento de AR, lo que sugiere una relación cuantitativa entre el esfuerzo de entrenamiento y la adquisición de estrategias efectivas de utilización de herramientas. Implementamos un marco robusto utilizando algoritmos y marcos de AR estándar, y demostramos que supera a los métodos existentes.

Takeaways, Limitations

•

Takeaways:

◦

Demostramos que el aprendizaje basado en resultados mediante recompensas puede enseñar eficazmente a los LLM la capacidad de utilizar herramientas externas de forma autónoma.

◦

Proporcionamos una base para futuras investigaciones al dilucidar la relación cuantitativa entre la fase de entrenamiento y la mejora del rendimiento.

◦

La metodología ZeroTIR propuesta supera los métodos existentes en la solución de problemas matemáticos difíciles.

◦

Apoyamos la investigación de seguimiento haciendo públicos entornos y códigos de investigación reproducibles.

•

Limitations:

◦

Actualmente limitado a ejecutar código Python, se necesita más investigación sobre su extensibilidad para aprovechar otros tipos de herramientas.

◦

La gama de puntos de referencia para problemas matemáticos utilizados puede ser limitada y se necesitan evaluaciones de desempeño en una variedad más amplia de tipos de problemas.

◦

El costo computacional del entrenamiento RL puede ser significativo y se necesita más investigación para desarrollar métodos de entrenamiento eficientes.

Ver PDF

Made with Slashpage