Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Gemelos digitales de HPC para evaluar políticas de programación, estructuras de incentivos y su impacto en la energía y la refrigeración

NLKI: Un marco ligero de integración de conocimiento del lenguaje natural para mejorar pequeños VLM en tareas de VQA de sentido común

Interact-Custom: Generación personalizada de imágenes de interacción con objetos humanos

Un marco autosupervisado de expertos para la recomendación de múltiples comportamientos

MIDAS: Síntesis digital-humana interactiva multimodal mediante generación de vídeo autorregresivo en tiempo real

De la Tabula Rasa a las Habilidades Emergentes: Descubrimiento de las Habilidades de los Robots a través de la Diversidad de Calidad No Supervisada en el Mundo Real

Recableado dinámico de grafos basado en triangulación para redes neuronales de grafos

STDiff: Un marco de difusión de transición de estados para la imputación de series temporales en sistemas industriales

Los LLM no pueden manejar la presión de grupo: se desmoronan bajo interacciones sociales entre múltiples agentes

Graph-R1: Incentivo a la capacidad de aprendizaje de gráficos de disparo cero en LLM mediante razonamiento explícito

Mejora del habla específica de la modalidad y fusión adaptativa al ruido para el marco de micrófonos acústicos y de conducción corporal

Los humanos perciben narrativas erróneas a partir de textos de razonamiento de IA

SpecVLM: Mejora de la decodificación especulativa de LLM de vídeo mediante la poda de tokens guiada por verificador

Actor-Crítico de Pareto para la cooptimización de la comunicación y la computación en servicios de aprendizaje federado no cooperativo

Aprender a conducir éticamente: integrar el razonamiento moral en la conducción autónoma

IA generativa contra la caza furtiva: correspondencia de flujo compuesto latente para la conservación de la vida silvestre

Detección de documentos de identidad falsos con respeto a la privacidad: metodología, punto de referencia y algoritmos mejorados (FakeIDet2)

Más allá de la piedra de Rosetta: Fuerzas de unificación en la dinámica de generalización

Hacia la equidad: mitigación del sesgo político en los LLM

Compresión de contexto dinámica para una RAG eficiente

Validación cruzada irredunda de $k$ pliegues

Ingeniería rápida y la eficacia de los grandes modelos lingüísticos para mejorar la productividad humana

Un conjunto de datos de recetas muy limpio con anotación de estados de ingredientes para la tarea de sondeo de estados

Ley de entropía-memorización: evaluación de la dificultad de memorización de datos en LLM

Las alegrías de la predicción conforme categórica

Manipulación adversarial de modelos de razonamiento mediante representaciones internas

Teoría de la mente de agente a agente: evaluación de la conciencia del interlocutor entre grandes modelos lingüísticos

Un método híbrido de inteligencia artificial para estimar el parpadeo en sistemas de energía (los cambios están marcados)

GLProtein: Aprendizaje de la representación de proteínas con estructura global y local

Juego de inequivalencia semántica de programas con modelos de lenguaje grandes

DSO: Alineación de generadores 3D con retroalimentación de simulación para la solidez física

Mejora de la cuantificación con la expansión del modelo posterior al entrenamiento

Navegación social segura y eficiente a través de regiones de seguridad explicables basadas en características topológicas

Un enfoque sencillo para el aprendizaje por imitación consciente de las restricciones con aplicación a las carreras autónomas

NnU-Net federada para la segmentación de imágenes médicas que preserva la privacidad

ExPath: Inferencia de vías específicas para bases de conocimiento biológico mediante aprendizaje y explicación de gráficos

Mejora de la generación automatizada de invariantes de bucle para programas complejos con modelos de lenguaje grandes

RevPRAG: Revelando ataques de envenenamiento en la generación aumentada por recuperación mediante análisis de activación LLM

Agrupamiento de datos categóricos mediante el aprendizaje de métricas de distancia estimada por orden de valor

Aplicación de la IA a métodos formales: un análisis de las tendencias actuales

Reconsiderando el desempeño de GAE en la predicción de enlaces

Ver y luego contar: mejora de la extracción de información clave con la puesta a tierra de la visión

Mejora del rendimiento de la inferencia del lenguaje natural con Knowledge Graph para la verificación automatizada de datos sobre la COVID-19 en idioma indonesio.

Puppet-Master: Escalamiento de la generación de video interactivo como un movimiento previo para dinámicas a nivel de partes

FFHFlow: Generación de comprensión diestra, diversa y consciente de la incertidumbre mediante inferencia variacional de flujo

SoAy: Una metodología basada en soluciones LLM que utiliza API para la búsqueda de información académica

Investigación de la robustez del aprendizaje contrafactual para clasificar modelos: un estudio de reproducibilidad

Replanteando la regularización de la invariancia en el entrenamiento adversarial para mejorar el equilibrio entre robustez y precisión

Formación y dinámica de redes entre multi-LLM

NetGPT: Transformador generativo preentrenado para el tráfico de red

OLKAVS: Un conjunto de datos audiovisuales coreanos abiertos y a gran escala

Explicabilidad de los métodos de procesamiento y recuperación de texto: una encuesta

La máquina de pensar de Ramon Llull para la ideación automatizada

RLMR: Aprendizaje de refuerzo con recompensas mixtas para la escritura creativa

Agentes con LLM para el mapeo del panorama competitivo en la debida diligencia de activos farmacéuticos

MSARL: Desacoplamiento del razonamiento y el uso de herramientas con aprendizaje de refuerzo de múltiples agentes pequeños

Descubrimiento algorítmico automatizado para la detección de ondas gravitacionales guiado por la búsqueda evolutiva de árboles de Monte Carlo basada en LLM

¿Pueden los modelos lingüísticos extensos desarrollar razonamiento estratégico? Perspectivas post-entrenamiento derivadas del aprendizaje del ajedrez.

La tecnología como territorio inexplorado: integridad contextual y la noción de IA como nuevo fundamento ético

Posibles principios para agentes de aprendizaje de estructura alineada

OptiMUS-0.3: Uso de modelos de lenguaje grandes para modelar y resolver problemas de optimización a escala

De la propuesta al producto: ensamblaje generativo mediante manipulación bimanual

OnGoal: Seguimiento y visualización de objetivos conversacionales en diálogos de múltiples turnos con modelos de lenguaje amplios

Mezcla de contextos para la generación de vídeos largos

FakeParts: una nueva familia de deepfakes generados por IA

Facilitar el acceso equitativo a un razonamiento financiero confiable

Veritas: Detección generalizable de deepfakes mediante razonamiento basado en patrones

Comprender, proteger y ampliar la cognición humana con IA generativa: una síntesis del taller "Herramientas para el pensamiento" de CHI 2025

Control de alineación en el tiempo de inferencia para modelos de difusión con guía de aprendizaje de refuerzo

¡Reacción en cadena! Enfoque estructurado con cadenas causales como representaciones intermedias para una mejor y más explicable respuesta a preguntas causales en video.

Planificación del movimiento cinedinámico mediante árboles de difusión

ExpertSim: Simulación rápida de detectores de partículas mediante una combinación de expertos generativos

WoW-Bench: Evaluación de la percepción acústica de grano fino en modelos de audiolenguaje mediante vocalizaciones de mamíferos marinos

ProactiveEval: Un marco de evaluación unificado para agentes de diálogo proactivo

Desafíos de la investigación en sistemas de gestión de bases de datos relacionales para consultas LLM

Recompensas verificables cuánticas para el Asistente de código Qiskit posterior a la capacitación

Inyección y transformación de vulnerabilidades mediante inteligencia artificial con razonamiento optimizado

JADES: Un marco universal para la evaluación de fugas de la cárcel mediante puntuación descompositiva

Aprendizaje de modelos primitivos del mundo encarnado: hacia un aprendizaje robótico escalable

Pruebas de penetración multiagente con IA para la Web

Funciones de barrera de control predictivo y consciente de la incertidumbre: interacción humano-robot más segura mediante predicción probabilística del movimiento

Exploración del aprendizaje automático y los modelos lingüísticos para la detección multimodal de la depresión

Reconocimiento de emociones del habla mediante selección de puntuación consciente de la entropía

Registro 3D basado en Surfel con características SE(3) equivalentes

Evaluación de la generalización compositiva en modelos VLM y de difusión

Clasificación más segura de lesiones cutáneas con evaluación de mapas de probabilidad de activación de clases globales y SafeML

Liberando la incertidumbre: desaprendizaje automático eficiente para la IA generativa

Señales de lucha: detección de distorsiones cognitivas en el lenguaje y el registro

Revirtiendo el hechizo: Amplificación de alineamiento ligero mediante inyección de seguridad de rango uno

Más allá de lo obvio: una encuesta sobre el reconocimiento de conceptos abstractos para la comprensión de videos

SKGE-SWIN: Predicción y navegación de puntos de referencia para vehículos autónomos de extremo a extremo mediante el transformador Swin de salto de etapa

Robustez de oclusión del CLIP para la clasificación de vehículos militares

SeqVLM: Razonamiento de secuencias multivista guiado por propuestas a través de VLM para una base visual 3D de disparo cero

Beneficios demostrables del aprendizaje en la herramienta para modelos de lenguaje grandes

${C}^{3}$-GS: Aprendizaje de características contextuales, multidimensionales y multiescalares para la dispersión gaussiana generalizable

Replanteamiento de las pruebas para aplicaciones LLM: características, desafíos y un protocolo de interacción ligero

EEGDM: Aprendizaje de la representación EEG con el modelo de difusión latente

Anotación generativa para la corrección de entidades nombradas ASR

MobileCLIP2: Mejora del entrenamiento reforzado multimodal

Asignación de tareas para máquinas autónomas mediante inteligencia computacional y aprendizaje de refuerzo profundo

Juego de inequivalencia semántica de programas con modelos de lenguaje grandes

Created by

Haebom

Autor

Antonio Valerio Miceli-Barone, Vaishak Belle, Ali Payani

Describir

Este artículo presenta un método novedoso para mejorar la capacidad de inferencia de código complejo de los modelos de lenguaje a gran escala (LLM). Si bien los LLM tienen un buen rendimiento en tareas rutinarias de codificación, pueden fallar en tareas complejas que requieren inferencias significativas sobre la semántica del programa. Para abordar este problema, este estudio explora un método para generar sintéticamente datos de entrenamiento de inferencia de código basado en el Juego de Inequidad Semántica (SInQ). Un agente generador genera variantes de programa semánticamente distintas, derivadas de un conjunto de datos de tareas de programación del mundo real, y un agente de evaluación identifica ejemplos de entrada que causan diferencias en el comportamiento del programa original y las variantes generadas. Los dos agentes se entrenan mutuamente de forma semi-antagónica, y demostramos que esta configuración puede, en teoría, mejorar infinitamente mediante auto-juego, asumiendo recursos computacionales infinitos. Validamos la eficacia del método propuesto mediante experimentos en diversos benchmarks de generación y comprensión de código, incluyendo la detección de vulnerabilidades multilingües y el benchmark de intercambio de identificadores integrado en Python. A pesar de estar entrenado exclusivamente en código Python, el método propuesto mejora la detección de vulnerabilidades en código C/C++ y logra mejoras significativas de rendimiento en el benchmark de intercambio de identificadores integrado en Python, un benchmark donde los LLM existentes presentan dificultades. Hemos publicado el código necesario para reproducir el experimento y los datos sintéticos generados, lo que permite a otros investigadores perfeccionar el LLM.

Takeaways, Limitations

•

Takeaways:

◦

Presentamos la posibilidad de mejorar la capacidad de razonamiento de código complejo de LLM a través de un método de generación de datos sintéticos basado en juegos de desigualdad semántica (SInQ).

◦

Demuestra el potencial de mejora del rendimiento en problemas de inferencia de código multilingües y de diversos tipos incluso con datos limitados.

◦

Contribuir al avance de la investigación LLM mediante la divulgación de datos sintéticos generados.

◦

Presentando la posibilidad de mejora continua del desempeño basado en el auto-juego.

•

Limitations:

◦

Es necesario examinar la aplicabilidad de las pruebas teóricas que suponen recursos computacionales infinitos a entornos del mundo real.

◦

Se necesita más investigación sobre la calidad y diversidad de los datos sintéticos generados.

◦

Se necesita una validación adicional para determinar si las mejoras de rendimiento para puntos de referencia específicos se pueden generalizar a todos los demás tipos de problemas de inferencia de código.

◦

Es necesario evaluar el rendimiento de la generalización para problemas de inferencia de código del mundo real complejos y diversos.

Ver PDF

Made with Slashpage