Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Las utilidades individuales de la satisfacción con la vida revelan una aversión a la desigualdad no relacionada con la alineación política

DischargeSim: Un modelo de simulación para la comunicación educativa médico-paciente en el momento del alta

Regularización de gaussianidad basada en espectros de momento y potencia para modelos de texto a imagen

Concepto computacional de la psique (en ruso)

MachineLearningLM: Escalado del aprendizaje contextual de múltiples disparos mediante preentrenamiento continuo

La frontera de la eficiencia: sombras clásicas versus imágenes cuánticas

BranchGRPO: GRPO estable y eficiente con ramificación estructurada en modelos de difusión

Cuantificación de la incertidumbre en modelos probabilísticos de aprendizaje automático: teoría, métodos y perspectivas

CURE: Desaprendizaje controlado para incrustaciones robustas: mitigación de atajos conceptuales en modelos de lenguaje preentrenados

Revelando precursores ocultos de terremotos mediante una transformación del ruido sísmico sensible al estrés

ASE: Un punto de referencia a nivel de repositorio para evaluar la seguridad en el código generado por IA

Comportamientos y preferencias subjetivas en LLM: Lenguaje de navegación

Más allá de diez turnos: Desbloqueo de la búsqueda agente de largo plazo con aprendizaje automático asincrónico a gran escala

SGDFuse: Difusión guiada por SAM para fusión de imágenes infrarrojas y visibles de alta fidelidad

Modelos lingüísticos de autocuestionamiento

MetaExplainer: Un marco para generar explicaciones multitipo centradas en el usuario para sistemas de IA

¿Cómo deberíamos metaaprender los algoritmos de aprendizaje de refuerzo?

Evaluación integral de prototipos de redes neuronales

HIRAG: Pensamiento jerárquico, instrucción, ajuste, recuperación y generación aumentada

CyberRAG: una herramienta de clasificación y generación de informes de ciberataques de Agentic RAG

Aprendizaje de refuerzo jerárquico multiescala temporal para el comportamiento unificado y el control de la conducción autónoma

Un modelo de representación no lineal de bajo rango con red neuronal convolucional para la imputación de datos de calidad del agua

VIDEO: Descomposición, ejecución y evaluación visual e interactiva de análisis de texto con agentes inteligentes

Difusión discreta en lenguajes extensos y modelos multimodales: un estudio

De la defensa estática a la adaptativa: defensa de objetivos móviles basada en aprendizaje de refuerzo profundo multiagente federado contra ataques DoS en redes de enjambre de UAV

¿Qué tan lejos estamos de la eficiencia óptima del razonamiento?

¿Quiénes son los nombres mencionados? Auditoría de las recomendaciones académicas basadas en el Máster en Derecho (LLM)

Criterios de detención para la iteración de valor en juegos concurrentes de alcanzabilidad y seguridad estocástica

Su modelo de lenguaje puede escribir en secreto como los humanos: ataques de paráfrasis contrastiva en detectores de texto generados por LLM

Ingeniería de aviso previo para el ajuste fino del refuerzo

Los grandes errores del modelo lingüístico surgen de la alucinación de características críticas del problema

CoT-RAG: Integración de la cadena de pensamiento y la recuperación-generación aumentada para mejorar el razonamiento en modelos lingüísticos extensos

TransitReID: Recopilación de datos de tránsito OD con reidentificación dinámica de pasajeros resistente a la oclusión

TerraMind: Multimodalidad generativa a gran escala para la observación de la Tierra

Bucles de entrenamiento recursivos en LLM: ¿Cómo las propiedades de los datos de entrenamiento modulan el cambio de distribución en los datos generados?

Escalado de modelos de lenguaje de vídeo a 10 000 fotogramas mediante destilación diferencial jerárquica

Un enfoque basado en la teoría de decisiones para abordar la incertidumbre en la mecánica cuántica

VIPER: Percepción visual y razonamiento explicable para la toma de decisiones secuencial

LED: Detección de objetos de vocabulario abierto mejorado LLM sin generación de datos seleccionados por humanos

Reangle-A-Video: Generación de vídeo 4D como traducción de vídeo a vídeo

Ver un mundo en una chispa de neurona: desenredar la interferencia multitarea para la fusión de modelos sin entrenamiento

UAR-NVC: Un marco autorregresivo unificado para la compresión de vídeo neuronal con memoria eficiente

MPO: Impulsando a los agentes LLM con la optimización del metaplan

¡Presta atención a las perturbaciones del mundo real! Evaluación de la robustez natural en la comprensión lectora de máquinas.

Un modelo de lenguaje general para la identificación de péptidos

Más allá de los datos vistos: mejora de la generalización de KBQA mediante la generación de formas lógicas guiadas por esquemas

CoAT: Marco de cadena de pensamientos asociados para mejorar el razonamiento de modelos lingüísticos amplios

Cuidado con la brecha entre valor y acción: ¿Los LLM actúan en consonancia con sus valores?

Reparación de trayectorias conforme a las normas de tráfico mediante teorías de módulos de satisfacibilidad y análisis de alcanzabilidad

QR-VC: Aprovechamiento de los residuos de cuantificación para el desenredo lineal en la conversión de voz de disparo cero

IA generativa para la ampliación de datos en redes inalámbricas: análisis, aplicaciones y estudio de caso

Inversión de compresión de rango dinámico mejorada neuronalmente: un enfoque híbrido para restaurar la dinámica del audio

La búsqueda del mediador adecuado: un estudio de la interpretabilidad mecanicista a través del análisis de la mediación causal

PriorCLIP: Modelo visual de visión y lenguaje guiado por prior para la recuperación de imágenes y texto mediante teledetección

Un enfoque transformador para la previsión de precios de la electricidad

FedComLoc: Entrenamiento distribuido de modelos dispersos y cuantificados con comunicación eficiente

PQMass: Evaluación probabilística de la calidad de los modelos generativos mediante la estimación de masa de probabilidad

HiPhO: ¿Qué tan lejos están los (M)LLM de los humanos en el último punto de referencia de las Olimpiadas de Física de la escuela secundaria?

Hacia un soporte de decisiones explicable mediante modelos neuronales híbridos para la automatización de terminales logísticas

BlendedNet: un conjunto de datos de aeronaves con fuselaje de ala combinada y un modelo sustituto para predicciones aerodinámicas

Eso es tan FETCH: Creación de técnicas de conjunto para la clasificación LLM en admisión y derivación legal civil

Leyes de Murphy sobre la alineación de la IA: Por qué la brecha siempre gana

Monitoreo adaptativo y evaluación en el mundo real de sistemas de IA con agentes

Reduciendo la brecha en la IA oftálmica: conjunto de datos MM-Retinal-Reason y el modelo OphthaReason hacia el razonamiento multimodal dinámico

Comprender la atención visual detrás de la navegación de vehículos aéreos no tripulados (UAV) inspirada en las abejas

Trabajar con IA: medición de la aplicabilidad de la IA generativa a las ocupaciones

Escalamiento de la planificación LLM: NL2FLOW para la generación de problemas paramétricos y la evaluación rigurosa

Finalización de gráficos de conocimiento basados en el contexto con paso de mensajes relacionales con conciencia semántica

Aprendizaje relacional de pocos intentos aumentado con metasemántica

Perovskite-LLM: Modelos de lenguaje grande basados en el conocimiento para la investigación de células solares de perovskita

Gráficos de conocimiento asociativo para el almacenamiento y la recuperación eficientes de secuencias

Planificación epistémica limitada por profundidad

Una encuesta sobre aprendizaje de refuerzo para modelos de razonamiento de gran tamaño

Hacking de modelos de lenguaje grandes: cuantificación de los riesgos ocultos del uso de LLM para la anotación de texto

QCardEst/QCardCorr: Estimación y corrección de la cardinalidad cuántica

Destilación de fusión de pensamientos

MoVoC: Construcción de subpalabras con morfología para lenguajes Geez Script

Escalando la verdad: la paradoja de la confianza en la verificación de datos con IA

PianoVAM: Un conjunto de datos multimodal de interpretación de piano

Un marco de aprendizaje profundo integral para el diagnóstico de arsenicosis mediante imágenes de piel capturadas con dispositivos móviles

Uso de IA para optimizar la transferencia de pacientes y la utilización de recursos durante incidentes con muchas víctimas: una plataforma de simulación

AgentGym-RL: Formación de agentes LLM para la toma de decisiones a largo plazo mediante aprendizaje de refuerzo multiturno

Aprendizaje de flujos turbulentos con modelos generativos: superresolución, pronóstico y reconstrucción de flujo disperso

FinZero: Lanzamiento de un pronóstico de series temporales financieras multimodales con un modelo de razonamiento amplio

DEQuifica tu campo de fuerza: Simulaciones más eficientes utilizando modelos de equilibrio profundo

X-Teaming Evolutionary M2S: Descubrimiento automatizado de plantillas de jailbreak de múltiples turnos a turnos únicos

Explicabilidad de los modelos de clasificación basados en CNN para señales acústicas

TANGO: Navegación con capacidad de transitabilidad y control métrico local para objetivos topológicos

Una arquitectura en capas para el análisis de registros en sistemas de TI complejos

Reformulando el algoritmo de avance hacia adelante con un objetivo basado en la similitud

Reconocimiento de lenguaje de señas basado en esqueletos mediante una red convolucional de gráficos dinámicos espacio-temporales de doble flujo

Aprendizaje robusto de políticas de estados de creencias para el enrutamiento de redes cuánticas en condiciones de decoherencia y variación temporal

Arquitectura de agentes LLM resilientes: una guía para implementar de forma segura y planificar y luego ejecutar

RoentMod: Un modelo sintético de modificación de rayos de tórax X-para identificar y corregir los atajos del modelo de interpretación de imágenes

UOPSL: Aprendizaje de sitios de predilección OCT no pareados para el aumento del diagnóstico por imágenes del fondo de ojo

OTESGN: Redes de grafos sintáctico-semánticos mejorados con transporte óptimo para el análisis de sentimientos basado en aspectos

Clasificación de comportamientos de movimiento de 24 horas a partir de datos de acelerómetros de muñeca: desde funciones artesanales hasta técnicas de aprendizaje profundo

Memorización en grandes modelos lingüísticos en medicina: prevalencia, características e implicaciones

Interpretabilidad como alineación: hacer de la comprensión interna un principio de diseño

MESH - Entendiendo los videos como humanos: Medición de alucinaciones en modelos de video grandes

¿Cómo deberíamos metaaprender los algoritmos de aprendizaje de refuerzo?

Created by

Haebom

Autor

Alexander David Goldie, Zilin Wang, Jaron Cohen, Jakob Nicolaus Foerster, Shimon Whiteson

Describir

Este artículo explora el creciente interés en el aprendizaje de algoritmos de metaaprendizaje a partir de datos, reemplazando los enfoques tradicionales de diseño manual, como paradigma para mejorar el rendimiento de los sistemas de aprendizaje automático. El metaaprendizaje es particularmente prometedor en el aprendizaje por refuerzo (RL), donde se aplican con frecuencia algoritmos de aprendizaje supervisados o no supervisados, a menudo no optimizados para el aprendizaje por refuerzo. En este artículo, comparamos empíricamente diversos algoritmos de metaaprendizaje, como algoritmos evolutivos para optimizar funciones de caja negra o modelos de lenguaje a gran escala (LLM) que proponen código. Comparamos y analizamos algoritmos de metaaprendizaje aplicados a diversas canalizaciones de RL, examinando factores como la interpretabilidad, el coste de la muestra y el tiempo de entrenamiento, además del rendimiento del metaaprendizaje y las metapruebas. Con base en estos resultados, proponemos varias directrices para el metaaprendizaje de nuevos algoritmos de RL con el fin de maximizar el rendimiento de los algoritmos aprendidos en el futuro.

Takeaways, Limitations

•

Takeaways:

◦

Proporcionamos un análisis comparativo empírico de la aplicación de varios algoritmos de metaaprendizaje (algoritmos evolutivos, LLM, etc.) al aprendizaje de refuerzo.

◦

Presentamos criterios de evaluación que consideran varios aspectos de los algoritmos de metaaprendizaje, incluido el rendimiento, la interpretabilidad, el costo de la muestra y el tiempo de entrenamiento.

◦

Presentamos pautas prácticas para futuras investigaciones de metaaprendizaje sobre algoritmos de aprendizaje de refuerzo.

•

Limitations:

◦

El alcance de los algoritmos que se comparan puede ser limitado.

◦

Es posible que los resultados sean específicos de un problema o entorno de RL específico.

◦

Tal vez se necesiten más investigaciones para determinar la generalización de las directrices propuestas.

Ver PDF

Made with Slashpage