Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Enseñando al docente: mejora de la destilabilidad de redes neuronales para la regresión simbólica mediante regularización jacobiana

Optimización bayesiana de parámetros de proceso de un sistema de clasificación basado en sensores utilizando procesos gaussianos como modelos sustitutos

Aprendizaje de representación de elementos relacionales multimodales para inferir elementos sustituibles y complementarios

SourceSplice: Selección de fuentes para tareas de aprendizaje automático

OneShield: la próxima generación de barandillas LLM

RecPS: Puntuación de riesgo de privacidad para sistemas de recomendación

HuiduRep: Un marco robusto y autosupervisado para el aprendizaje de representaciones neuronales a partir de registros extracelulares

Aprovechamiento de datos sintéticos para la respuesta a preguntas con LLM multilingües en el ámbito agrícola

Time-RA: Hacia el razonamiento de series temporales para anomalías con retroalimentación LLM

Red neuronal de percepción de agarre robótico segmentado para inteligencia artificial de borde

Binarización de GNN inspiradas en la física para la optimización combinatoria

Desenredando los modelos de forma normal disyuntiva neuronal

El segundo giro de la máquina: de la comprobación de pruebas a la creación de conceptos

EmissionNet: Pronóstico de la contaminación del aire para la agricultura

Semántica emergente más allá de las incrustaciones de tokens: LM de Transformer con representaciones visuales Unicode congeladas

Evaluación de LLM en pronósticos del mundo real frente a superpronosticadores humanos

Desambiguación de la detección de signos mediante modelos lingüísticos amplios

RAG-R1: Incentivar las capacidades de búsqueda y razonamiento de los LLM mediante paralelismo de múltiples consultas

Descubrimiento de la estructura analítica subyacente dentro de las constantes del Modelo Estándar utilizando inteligencia artificial

MR-CLIP: Aprendizaje eficiente de representaciones de contraste de resonancia magnética guiado por metadatos

Causalidad curiosa: los agentes buscadores aprenden el mundo metacausal

Desenmascaramiento teórico de ataques de inferencia contra clientes protegidos por LDP en modelos de visión federada

GPT privados para pruebas basadas en LLM en desarrollo de software y aprendizaje automático

DINO-R1: Incentivo a la capacidad de razonamiento en los modelos de la Fundación Visión

AutoSchemaKG: Construcción autónoma de gráficos de conocimiento mediante la inducción de esquemas dinámicos a partir de corpus a escala web

Mitigación del sesgo de género mediante el fomento del pensamiento exploratorio en los LLM

HumaniBench: Un marco centrado en el ser humano para la evaluación de grandes modelos multimodales

¿Son útiles los autocodificadores dispersos para la detección de errores en funciones Java?

Método RAG creíble basado en planes para la respuesta a preguntas de múltiples saltos

¿Desmitificando con diálogo? Explorando el contradiscurso generado por IA para desafiar las teorías conspirativas

Conjunto de datos de estacionamiento E2E: un punto de referencia abierto para el estacionamiento autónomo de extremo a extremo

Acciones dominadas en juegos de información imperfecta

FakeIDet: Explorando parches para la detección de identificaciones falsas que preservan la privacidad

Estimación simultánea de movimiento y ruido con cámaras de eventos

Piense antes de recomendar: Cómo liberar el poder del razonamiento latente para la recomendación secuencial

Perspectivas de los desarrolladores novatos sobre la adopción de LLM para el desarrollo de software: una revisión sistemática de la literatura

ULTHO: Optimización de hiperparámetros ultraligera pero eficiente en aprendizaje de refuerzo profundo

Una encuesta sobre el post-entrenamiento de modelos lingüísticos de gran tamaño

¿Saben los grandes modelos lingüísticos cuánto saben?

Mejores incrustaciones con la pareja Adam

Transmisión de vídeo adaptativa con conciencia semántica mediante modelos de difusión latente para redes inalámbricas

Una investigación sobre la discordancia de valores en los textos generados por LLM para el patrimonio cultural

Adopción de modelos de lenguaje amplios en la previsión del flujo de tráfico

Un modelo de base de sensor de gran tamaño preentrenado con datos de monitorización continua de glucosa para el control de la diabetes

FLOAT: Correspondencia de flujo latente de movimiento generativo para retratos hablados basados en audio

Adaptación del tiempo de prueba de desmezcla bajo flujos de datos heterogéneos

PATH: Un conjunto de datos de secuencia discreta para evaluar enfoques de detección de anomalías no supervisadas en línea para series de tiempo multivariadas

Explorando las vulnerabilidades adversarias de los modelos visión-lenguaje-acción en robótica

Cobblestone: Automatización iterativa para la verificación formal

Planificación de misiones cooperativas y asincrónicas basadas en transformadores para equipos heterogéneos de robots móviles

Mapas de políticas: herramientas para guiar el espacio ilimitado de comportamientos de LLM

AttnMod: Nuevos estilos artísticos basados en la atención

Degeneración del paisaje de pérdidas y desarrollo por etapas en transformadores

Abordar la generalización del tamaño de redes neuronales gráficas en datos biológicos desde una perspectiva espectral

Defensa contra fugas de gradiente con módulo de bloqueo de teclas para aprendizaje federado

Seed-Prover: Razonamiento profundo y amplio para la demostración automatizada de teoremas

Cadena de confianza semántica: orquestación de confianza autónoma para la selección de colaboradores mediante IA agente asistida por hipergrafos

¿Qué tan lejos están los científicos de IA de cambiar el mundo?

Una encuesta sobre agentes autoevolutivos: camino hacia la superinteligencia artificial

TIERRA: Estructuración de la evolución creativa a través del error de modelo en IA generativa

Sobre la semántica gradual para la argumentación basada en suposiciones

Razonamiento neurosimbólico sólido y completo con LLM - Interpretaciones fundamentadas

Intercambio dinámico de conocimientos y revisión de doble diversidad: cómo aprovechar al máximo el potencial de un equipo de investigación multiagente

ORFS-agent: Agentes que utilizan herramientas para optimizar el diseño de chips

Aprendizaje basado en modelos mundiales para la minimización a largo plazo de la era de la información en redes vehiculares

El impacto urbano de la IA: modelado de bucles de retroalimentación en la recomendación de la próxima sede

BOOST: Arranque de programas de razonamiento basado en estrategias para la verificación de datos guiada por programas

OR-LLM-Agent: Automatización del modelado y la resolución de problemas de optimización de investigación de operaciones con razonamiento LLM

Explicaciones causales de los clasificadores de imágenes

BCR-DRL: Recompensa consciente del comportamiento y del contexto para el aprendizaje de refuerzo profundo en la coordinación humano-IA

Entrenamiento cruzado federado de estudiantes para una generalización robusta en condiciones de heterogeneidad de datos

Identificación de una red bayesiana espacio-temporal única sin equivalencia de Markov

¿Los entienden? Una evaluación actualizada sobre el manejo de pronombres no binarios en modelos lingüísticos extensos.

SpA2V: Aprovechamiento de señales auditivas espaciales para la generación de vídeo espacial basado en audio

Adaptación del tiempo de prueba con reconocimiento de muestras para la traducción de imágenes médicas a imágenes

MMBERT: BERT multimodal de mezcla de expertos a escala para la detección robusta del discurso de odio chino bajo perturbaciones de encubrimiento

Un método simple y eficaz para la cuantificación de la incertidumbre y la detección de OOD

Aprovechar el poder del entrelazado y la evaluación contrafactual para el posicionamiento en las búsquedas de Airbnb

¿Eres realmente tú? Explorando escenarios de verificación biométrica en videos fotorrealistas de avatares de cabezas parlantes.

Los modelos de lenguaje grande de Agentic mejoran la respuesta a preguntas de radiología basadas en la recuperación

Abducción fuera de contexto: los LLM realizan inferencias sobre datos procedimentales aprovechando hechos declarativos en datos de entrenamiento anteriores

Cómo los LLM están dando forma al futuro de la realidad virtual

Muestreo estratificado de fidelidad múltiple basado en aprendizaje automático adaptativo para el análisis de fallos de sistemas estocásticos no lineales

Razonamiento adaptativo dinámico a través de MCTS guiado por LLM para una KGQA eficiente y consciente del contexto

Refinamiento de pseudoetiquetas de gráficos anidados para el aprendizaje de adaptación del dominio de etiquetas ruidosas

JSON-Bag: una representación genérica de la trayectoria del juego

NyayaRAG: Predicción realista de sentencias judiciales con RAG en el sistema de derecho consuetudinario indio

Solución eficiente y aprendizaje de MDP factorizados robustos

D3: Detección de vídeo generada por IA sin entrenamiento mediante características de segundo orden

Política de transformadores de difusión en el dispositivo para una manipulación eficiente del robot

Segmentar primero, recuperar mejor: búsqueda legal realista mediante consultas retóricas basadas en roles

El razonamiento médico en la era de los LLM: una revisión sistemática de las técnicas y aplicaciones de mejora

Fomento de la educación preuniversitaria en ciencias de la información cuántica: el caso de la colaboración en ciencias del aprendizaje

Ataques de puerta trasera a la detección facial mediante aprendizaje profundo

Modelo de gráfico de autoconstrucción basado en similitud para predecir la criticidad del paciente mediante redes neuronales gráficas y datos de EHR

Informe científico n.° 3: Te pagaré o te mataré, pero ¿te importará?

Arquitecturas de kernel de SO componibles para inteligencia autónoma

LeakSealer: una defensa semisupervisada para LLM contra ataques de inyección rápida y fugas

Marco Wukong para la detección de situaciones no seguras para el trabajo en sistemas de texto a imagen

OmniUnet: una red multimodal para la segmentación de terreno no estructurado en vehículos planetarios mediante imágenes RGB, de profundidad y térmicas

Un agente de codificación que se mejora a sí mismo

Created by

Haebom

Autor

Maxime Robeyns, Martin Szummer, Laurence Aitchison

Describir

Este artículo demuestra que los sistemas de agentes de modelos de lenguaje a gran escala (LLM) pueden modificarse de forma autónoma y mejorar su rendimiento mediante herramientas de codificación básicas. Los sistemas de agentes LLM alcanzan mejoras de rendimiento de entre el 17 % y el 53 % en subconjuntos aleatorios de SWE Bench Verified, y mejoras adicionales en LiveCodeBench y en benchmarks de agentes generados artificialmente. Esto representa un avance en el diseño automatizado y abierto de sistemas de agentes que demuestran mecanismos de aprendizaje eficientes en datos y sin gradientes, impulsados por la autorreflexión de LLM y las actualizaciones de código.

Takeaways, Limitations

•

Takeaways:

◦

Al demostrar empíricamente el potencial de automejora de los sistemas de agentes LLM, presentamos un nuevo paradigma para el diseño de sistemas de agentes.

◦

Presentamos un mecanismo de aprendizaje no basado en gradientes y eficiente en el uso de datos, en comparación con el aprendizaje convencional basado en gradientes.

◦

Presentamos una nueva forma de mejorar el rendimiento del sistema aprovechando las capacidades autorreflexivas de LLM.

•

Limitations:

◦

Es necesaria una mayor validación de la generalización de los puntos de referencia utilizados.

◦

Se necesitan más investigaciones para determinar la estabilidad y previsibilidad del proceso de autocorrección.

◦

Se necesita más investigación para explorar la generalización en tareas o situaciones complejas que involucran múltiples herramientas.

Made with Slashpage