Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

PRIX: Aprendiendo a planificar desde cero para la conducción autónoma de extremo a extremo

Swin-TUNA: Un novedoso enfoque PEFT para la segmentación precisa de imágenes de alimentos

EarthLink: Un agente de IA autoevolutivo para la ciencia del clima

Proxy de realidad: Interacciones fluidas con objetos del mundo real en realidad mixta mediante representaciones abstractas

Aprovechamiento de señales heterogéneas y de múltiples fuentes para la detección de fatiga

Bondad de pronunciación sin segmentación

Marco de estimación de pose relativa adaptativa con ajuste de ruido dual para maniobras de aproximación seguras

Coordinación compositiva para equipos multi-robot con modelos lingüísticos extensos

La difusión supera a la autorregresión en entornos con limitaciones de datos

El nuevo cuello de botella del LLM: una perspectiva sistémica sobre la atención latente y la mezcla de expertos

EndoControlMag: Ampliación robusta del movimiento vascular endoscópico con restablecimiento periódico de referencia y control jerárquico de doble máscara con reconocimiento de tejido

Redes neuronales de gráficos de larga y corta distancia y mejora del aprendizaje curricular para el reconocimiento de emociones en la conversación

Omni-Thinker: Escalamiento de la generalización entre dominios en LLM mediante aprendizaje a distancia multitarea con recompensas híbridas

GCC-Spam: Detección de spam mediante GAN, aprendizaje contrastivo y redes de similitud de caracteres

SDSC: Una métrica consciente de la estructura para el aprendizaje de la representación de señales semánticas

Los LLM multilingües no son pensadores multilingües: evidencia de la evaluación de analogías con hindi

Modulación de la atención dinámica de frecuencia para la predicción densa

Una encuesta sobre aprendizaje profundo para la resolución de problemas de geometría

Modelos de la Fundación EEG: Una revisión crítica del progreso actual y las direcciones futuras

Inversión-DPO: Post-entrenamiento preciso y eficiente para modelos de difusión

Un marco PBN-RL-XAI para descubrir una estrategia terapéutica de “golpe y fuga” en el melanoma

Prioridades de tareas: mejora de la evaluación del modelo al considerar todo el espacio de tareas posteriores

OrQstrator: Un marco impulsado por IA para la optimización avanzada de circuitos cuánticos

Un estudio exhaustivo de la clasificación de argumentos basada en LLM: desde LLAMA pasando por GPT-4o hasta Deepseek-R1

Indicadores mecanicistas de comprensión en modelos lingüísticos amplios

Adaptación del aprendizaje real a vídeos largos

Teleoperación bilateral rápida y aprendizaje por imitación mediante control de fuerza sin sensores mediante un modelo dinámico preciso

Autocodificadores enmascarados que perciben el corazón: revelando el sesgo de simplicidad en los análisis de ECG

SyncMapV2: Segmentación no supervisada robusta y adaptativa

Dinámica web LLM: Seguimiento del colapso del modelo en una red de LLM

¿Por qué se producen efectos de evaluación dependientes de la clase con la atribución de características de series temporales? Una investigación con datos sintéticos

Difuso y disperso: generación de imágenes con regularización de representación

LLM-D12: Una escala bidimensional de dependencias instrumentales y relacionales en grandes modelos lingüísticos

MambaNeXt-YOLO: Un modelo híbrido de espacio de estados para la detección de objetos en tiempo real

PALADIN: Huella neuronal robusta para modelos de difusión de texto a imagen

Aprendizaje de refuerzo en línea basado en resultados: algoritmos y límites fundamentales

Soluciones de aprendizaje automático integradas en una plataforma IoT de atención médica para la estratificación del riesgo de insuficiencia cardíaca

Más allá de la descomposición de bajo rango: un enfoque rápido para un aprendizaje eficiente en el dispositivo

Transformadores de visión en la agricultura de precisión: un estudio exhaustivo

PerceptionLM: Datos y modelos de acceso abierto para una comprensión visual detallada

Posición: Una teoría de la identificabilidad con base empírica acelerará la investigación sobre aprendizaje autosupervisado

LagKV: La información relativa al retraso de la caché KV indica qué tokens son importantes

Desencadenante sin rastro: Hacia un ataque de puerta trasera sigiloso en modelos de difusión de texto a imagen

Muestreo logit disperso: aceleración de la destilación del conocimiento en los LLM

Alineando la visión con el lenguaje: Construcción de gráficos de conocimiento multimodal sin anotaciones para un razonamiento mejorado en LLM

Adaptador Att: un adaptador de difusión T2I multiatributos, robusto y preciso, específico de dominio mediante un autocodificador variacional condicional

Cuando un gran modelo de visión y lenguaje se combina con imágenes de teledetección de gran tamaño: Poda de tokens guiada por texto de grueso a fino

Aprendizaje robusto de múltiples vistas mediante la fusión de la representación de la atención a nivel de muestra y la alineación de la perturbación simulada

Abordaje de la alucinación a partir de modelos condicionales para la reconstrucción de imágenes médicas con DynamicDPS

Aprendizaje automático cuántico en medicina de precisión y descubrimiento de fármacos: ¿Un cambio radical para los tratamientos personalizados?

Un modelo de lenguaje general para la identificación de péptidos

ExpliCa: Evaluación del razonamiento causal explícito en modelos lingüísticos amplios

EVEv2: Líneas de base mejoradas para modelos de visión y lenguaje sin codificador

Alineación LLM como optimización del recuperador: una perspectiva de recuperación de información

Pulse-PPG: Un modelo de código abierto de base PPG entrenado en campo para aplicaciones portátiles en entornos de laboratorio y de campo.

Mercado inmobiliario en línea

Aprendizaje y optimización integrados para la gestión de la congestión y la maximización de beneficios en el mercado eléctrico en tiempo real

Integración de evidencia en el diseño de sistemas de apoyo a la toma de decisiones basados en XAI e IA: un marco de medios y fines para usuarios finales en la construcción

Diseño de parámetros escalables para circuitos cuánticos superconductores con redes neuronales gráficas

Un estudio sobre la identificación de causalidad de eventos: taxonomía, desafíos, evaluación y perspectivas

Desclasificación de la máquina correctiva neuronal

Hacia una generalización médica multimodal universal en 3D mediante el aprendizaje de una representación invariante personalizada

Primitivas de variedad de movimiento diferenciables para la generación de movimiento reactivo bajo restricciones cinedinámicas

Ajuste fino de orden cero de LLM en subespacios aleatorios

RUMI: Hurgando con información mutua

Desclasificación de máquinas neuronales

VolDoGer: Conjuntos de datos asistidos por LLM para la generalización de dominios en tareas de visión y lenguaje

Detección de deriva conceptual no supervisada a partir de representaciones de aprendizaje profundo en tiempo real

Un marco de evaluación multifacético para evaluar datos sintéticos generados por grandes modelos lingüísticos

DualXDA: Hacia una atribución de datos dispersa, eficiente y explicable en grandes modelos de IA

Cuantificación de la singularidad y el carácter divisivo del discurso presidencial

DocTER: Evaluación de la edición de conocimiento basada en documentos

Aprendizaje de conceptos definibles en lógica de primer orden con conteo

Reconocimiento y obtención de perfiles de cruces simples débiles en árboles

Compliance Brain Assistant: IA conversacional y agente para asistir en tareas de cumplimiento en entornos empresariales

Aprendizaje de abstracciones temporales mediante homomorfismos variacionales en MDP abstractos inducidos por opciones

Cuando la autonomía se descontrola: preparándose para los riesgos de la colusión multiagente en los sistemas sociales

Un marco integrado de ingeniería rápida y gráficos de conocimiento multidimensionales para el análisis de disputas legales

DisMS-TS: Eliminación de características multiescala redundantes para la clasificación de series temporales

Corrompidos por el razonamiento: los modelos de lenguaje de razonamiento se convierten en oportunistas en los juegos de bienes públicos

Formación de haces y asignación de recursos para la minimización del retardo en sistemas OFDM asistidos por RIS

Influenciabilidad neurodivergente como solución contingente al problema de alineación de la IA

EducationQ: Evaluación de las capacidades docentes de los LLM mediante un marco de diálogo multiagente

SuperARC: una prueba agnóstica para inteligencia limitada, general y superinteligencia basada en los principios de compresión recursiva y probabilidad algorítmica

IPCGRL: Aprendizaje por refuerzo instruido por el lenguaje para la generación de niveles procedimentales

OR-LLM-Agent: Automatización del modelado y la resolución de problemas de optimización de investigación de operaciones con razonamiento LLM

El razonamiento químico en los LLM permite la planificación de síntesis con conciencia de estrategia y la elucidación del mecanismo de reacción.

BEARCUBS: Un referente para agentes web que utilizan ordenadores

De la hipótesis a la publicación: un estudio exhaustivo de los sistemas de apoyo a la investigación basados en IA

HPS: Muestreo de preferencias duras para la alineación de las preferencias humanas

Un método de recompensa diferenciada para algoritmos de toma de decisiones cooperativas de múltiples vehículos basados en aprendizaje de refuerzo

Recuperación de clases de órdenes causales con bases de conocimiento inconsistentes

Sobre la estructura de la procedencia de los juegos y sus aplicaciones

I-CEE: Adaptación de las explicaciones de los modelos de clasificación de imágenes a la experiencia del usuario

SIDA: Adaptación del dominio de disparo cero impulsada por imágenes sintéticas

Síntesis de software 3D guiada por representación intermedia expresiva de restricciones

Mudanza: colaboración entre humanos e IA con base física

SynC: Refinamiento del conjunto de datos de subtítulos de imágenes sintéticas con mapeo de uno a muchos para subtítulos de imágenes de disparo cero

Recuento aproximado de SMT más allá de dominios discretos

DRWKV: Enfoque en los bordes de los objetos para mejorar la imagen con poca luz

Corrompidos por el razonamiento: los modelos de lenguaje de razonamiento se convierten en oportunistas en los juegos de bienes públicos

Created by

Haebom

Autor

David Guzmán Piedrahita, Yongjin Yang, Mrinmaya Sachan, Giorgia Ramponi, Bernhard Scholkopf, Zhijing Jin

Describir

Este artículo estudia el rol de las sanciones costosas en la interacción de múltiples agentes de modelos de lenguaje a gran escala (LLM). Aplicando el juego de bienes públicos de la economía del comportamiento al sistema de agentes LLM, observamos cómo los LLM abordan dilemas sociales en interacciones repetidas. Nuestro análisis revela que los LLM exhiben cuatro patrones de comportamiento: grupos que mantienen un nivel constante de cooperación, grupos que alternan entre cooperación y no cooperación, grupos cuya cooperación disminuye con el tiempo y grupos que siguen estrategias fijas independientemente del resultado. Sorprendentemente, mientras que los LLM con alta capacidad de razonamiento, como la serie o1, tienen dificultades para cooperar, algunos LLM existentes logran consistentemente altos niveles de cooperación. Esto sugiere que los enfoques actuales de mejora de los LLM que se centran en mejorar la capacidad de razonamiento podrían no conducir a la cooperación.

Takeaways, Limitations

•

Takeaways:

◦

Demostramos que la mejora en la capacidad de razonamiento de LLM no conduce directamente a la cooperación, lo que sugiere la necesidad de un nuevo enfoque para diseñar el comportamiento cooperativo de los agentes LLM.

◦

Descubrimiento de diferentes patrones de comportamiento cooperativo en diferentes arquitecturas LLM y métodos de entrenamiento. Destacando los desafíos de predecir y controlar el comportamiento social en LLM.

◦

Presentar el potencial del análisis del comportamiento social del LLM a través de marcos experimentales como los juegos de bienes públicos.

•

Limitations:

◦

Limitaciones en el tipo y la versión de LLM utilizados en el experimento. Limita la generalización entre diferentes LLM.

◦

Resultados del análisis para una situación específica denominada «juego de bienes públicos». Se requiere mayor investigación para generalizar a otros tipos de dilemas sociales.

◦

Falta de análisis de sensibilidad sobre el diseño específico y los parámetros del mecanismo de sanciones.

Ver PDF

Made with Slashpage