[공지사항]을 빙자한 안부와 근황

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Núcleo de fusión para optimización bayesiana en el espacio de permutación

Clasificación detallada de fracturas de muñeca pediátricas teniendo en cuenta la demografía

Recomendación generativa multidominio de múltiples objetivos

ParaStudent: Generar y evaluar código estudiantil realista enseñando a los LLM a esforzarse

Modelado de la cognición en mundo abierto como síntesis a demanda de modelos probabilísticos

EgoVLA: Aprendizaje de modelos de visión, lenguaje y acción a partir de vídeos de personas egocéntricas

Inversión-DPO: Post-entrenamiento preciso y eficiente para modelos de difusión

Una línea base simple para redes neuronales estables y plásticas

WildFX: Un pipeline basado en DAW para modelado gráfico de efectos de audio en la naturaleza

De KMMLU-Redux a KMMLU-Pro: un conjunto de referencia coreano profesional para la evaluación de LLM

Agent KB: Aprovechar la experiencia multidominio para la resolución de problemas agénticos

Cómo no detectar inyecciones inmediatas con un LLM

Críticas de los modelos mundiales

El papel de los grandes modelos de lenguaje en el diseño UI/UX: una revisión sistemática de la literatura

LearnLens: Retroalimentación personalizada, basada en el currículo y habilitada para LLM, con educadores involucrados

STACK: Ataques adversarios a los pipelines de protección de LLM

ZonUI-3B: Un modelo de lenguaje de visión ligero para la puesta a tierra de GUI de resolución cruzada

Comprensión del razonamiento en modelos de lenguaje de pensamiento mediante vectores de dirección

Redes neuronales agénticas: sistemas multiagente autoevolutivos mediante retropropagación textual

EvolveNav: Razonamiento corporal automejorable para la navegación visual-lingüística basada en LLM

TextDiffuser-RL: Optimización eficiente y robusta del diseño de texto para síntesis de texto a imagen de alta fidelidad

SpecMaskFoley: Dirigir un transformador generativo enmascarado espectral preentrenado hacia la síntesis sincronizada de video a audio mediante ControlNet

Exploración de representaciones gráficas de formas lógicas para el modelado del lenguaje

DeepSeek-Prover-V2: Avanzando en el razonamiento matemático formal mediante el aprendizaje por refuerzo para la descomposición de subobjetivos

ParaPO: Alineación de modelos lingüísticos para reducir la reproducción literal de datos previos al entrenamiento

DP2Unlearning: Un marco de desaprendizaje eficiente y garantizado para LLM

CDUPatch: Ataque de parche adversario universal basado en color para detectores de infrarrojo visible de doble modo

Práctica: Segmentación de signos individuales a partir de secuencias continuas

¿Podemos aliviar el cuello de botella de inyectividad en las variedades lorentzianas para redes neuronales gráficas?

Alinea tu ritmo: Genera poses de baile altamente alineadas con representación de características con reconocimiento del ritmo y mejoradas mediante puertas

HoH: Un punto de referencia dinámico para evaluar el impacto de la información obsoleta en la generación aumentada por recuperación

AIvaluateXR: Un marco de evaluación para la IA en dispositivos en XR con resultados de benchmarking

Un enfoque empírico de minimización de riesgos para el RL inverso fuera de línea y el modelo de elección discreta dinámica

Evaluación de la predicción de enlaces: nuevas perspectivas y recomendaciones

Aprender a razonar en la frontera de la aprendibilidad

Stonefish: Apoyo a la investigación del aprendizaje automático en robótica marina

Armonía en la divergencia: Hacia un ajuste fino de LLM de orden cero rápido, preciso y eficiente en memoria

Sobre la transferencia de conocimiento en algoritmos cuánticos

Legibilidad del código en la era de los grandes modelos de lenguaje: un estudio de caso industrial de Atlassian

Sesgo en la toma de decisiones para los dilemas éticos de la IA: un estudio comparativo de ChatGPT y Claude

ASTRID: un TRIaD automatizado y escalable para la evaluación de sistemas de respuesta a preguntas clínicas basados en RAG

Coherencia de las respuestas y continuaciones generadas por grandes modelos lingüísticos en las redes sociales

Del código al cumplimiento: evaluación de la utilidad de ChatGPT en el diseño de una página web accesible: un estudio de caso

Razonamiento temporal para el resumen de la línea de tiempo en las redes sociales

Ataques de puerta trasera textuales invisibles basados en doble activación

Hacia el descubrimiento científico con el aprendizaje de diccionarios: extracción de conceptos biológicos de modelos básicos de microscopía

Preentrenamiento en dos etapas para la predicción de propiedades moleculares en la naturaleza

Hacia el funcionamiento práctico de agentes de aprendizaje de refuerzo profundo en la gestión de redes del mundo real en los bordes de RAN abierta

Un enfoque para la generación automática de funciones de etiquetado para chatbots de ingeniería de software

Conectando el conocimiento local y global mediante Transformers en los juegos de mesa

Pérdida de entropía: un amplificador de interpretabilidad de la red de detección de objetos 3D para la conducción inteligente

FBSDiff: Sustitución de bandas de frecuencia plug-and-play de características de difusión para una traducción de imágenes basada en texto altamente controlable

Sobre el preentrenamiento de modelos de lenguaje multimodal personalizados para la comprensión de gráficos

Métodos de base visual para una interacción eficiente con interfaces gráficas de usuario de escritorio

Instruct-MusicGen: Desbloqueo de la edición de texto a música para modelos de lenguaje musical mediante el ajuste de instrucciones

Meta4XNLI: Un corpus paralelo translingüístico para la detección e interpretación de metáforas

SecurePose: Difuminado automático de rostros y extracción cinemática del movimiento humano a partir de vídeos grabados en entornos clínicos

Muestreo DDIM mejorado con mezclas gaussianas de coincidencia de momentos

Realidad virtual con seguimiento ocular: un estudio exhaustivo sobre métodos y desafíos de privacidad

De las raíces a las recompensas: razonamiento dinámico de árboles con RL

Iluminando los tres dogmas del aprendizaje por refuerzo bajo la luz evolutiva

Análisis del espacio de instancias del problema de enrutamiento de vehículos capacitados

LLM multiagente como defensores de la ética para sistemas basados en IA

GATSim: Simulación de movilidad urbana con agentes generativos

Razonamiento sobre la incertidumbre: ¿Los modelos de razonamiento saben cuándo no saben?

La ilusión del pensamiento: comprender las fortalezas y limitaciones de los modelos de razonamiento a través de la lente de la complejidad del problema

Reflectivismo estratégico en sistemas inteligentes

SafeAgent: Protección de agentes LLM mediante un simulador de riesgos automatizado

¿Qué diablos es la Inteligencia General Artificial?

Hacia la era del razonamiento: un estudio de las largas cadenas de pensamiento para razonar con modelos de lenguaje grandes

De las palabras a las colisiones: evaluación guiada por LLM y generación adversarial de escenarios de conducción críticos para la seguridad

¿Codificar o no codificar? Integración de herramientas adaptativas para modelos de lenguaje matemático mediante expectativa-maximización.

BLAST: Un ataque sigiloso de puerta trasera contra sistemas cooperativos multiagente basados en aprendizaje de refuerzo profundo

UniEmoX: Preentrenamiento a gran escala guiado semánticamente y transmodal para la percepción universal de emociones en escenas

CorMulT: Un transformador multimodal semisupervisado que tiene en cuenta la correlación de modalidades para el análisis de sentimientos

Hacia el aprendizaje de la representación causal temporal con descomposición tensorial

Redes de Kolmogorov Arnold (KAN) para datos desequilibrados: una perspectiva empírica

NoHumansRequired: Edición de imágenes autónoma de alta calidad y minería de tripletes

Lecciones del programa TREC de Adaptación en lenguaje sencillo de resúmenes biomédicos (PLABA)

Validación multicéntrica de un modelo de aprendizaje profundo para la evaluación de la escoliosis

El vínculo entre la emoción y la memoria: ¿Son importantes las anotaciones de memorabilidad para los sistemas inteligentes?

DENSE: Generación longitudinal de notas de progreso con modelado temporal de notas clínicas heterogéneas en visitas hospitalarias

Inteligencia de borde con redes neuronales de punta

VLA-Mark: una marca de agua intermodal para un modelo de alineación de visión y lenguaje de gran tamaño

La modulación de ganancia inspirada en el noradrenérgico atenúa la brecha de estabilidad en el entrenamiento articular

Un optimizador de serpiente mejorado y de múltiples estrategias para la planificación de rutas de UAV tridimensionales y problemas de ingeniería

Plataforma de tejido fotónico para aceleradores de IA

OrthoInsight: Diagnóstico de fracturas costales y generación de informes basados en modelos multimodales de gran tamaño

CSD-VAR: Descomposición de estilo de contenido en modelos autorregresivos visuales

Una red neuronal de percepción de agarre de robot segmentado para IA de borde

Superinteligencia de abajo hacia arriba específica del dominio: un gráfico de conocimiento confiable es lo que necesitamos

DUALRec: Un marco híbrido de modelos secuenciales y de lenguaje para la recomendación de películas según el contexto

Aprovechar el efecto de primacía para mejorar los modelos de lenguaje grandes

Pronóstico generalista con modelos de vídeo congelado mediante difusión latente

Transformaciones convergentes de la representación visual en cerebros y modelos

Preimpresión: ¿Acabo de visitar un sitio web escrito por doctores en derecho?

Las palancas de la persuasión política con IA conversacional

Clasificación de textos según inclinación política y politicidad

Aprendizaje autosupervisado sobre datos de expresión genética

Uso de LLM para identificar características de habilidades personales y profesionales en una prueba de juicio situacional de respuesta abierta

Correcciones asistidas por IA a los comentarios de revisión de código a gran escala

Created by

Haebom

Autor

Chandra Maddila, Negar Ghorbani, James Saindon, Parth Thakkar, Vijayaraghavan Murali, Rui Abreu, Jingyue Shen, Brian Zhou, Nachiappan Nagappan, Peter C. Rigby

Describir

Meta procesa decenas de miles de comentarios de revisión de código cada semana. Este documento presenta el proceso y los resultados del desarrollo de Metamate for Code Review (MetaMateCR), un sistema que proporciona correcciones asistidas por IA a los comentarios de los revisores de código a gran escala. Ajustamos el modelo Llama utilizando 64 000 puntos de datos y lo implementamos en un entorno de producción después de que los resultados fuera de línea alcanzaran un nivel satisfactorio. Los resultados de la comparación con GPT-4o muestran que el modelo LargeLSFT desarrollado genera parches precisos en el 68 % de los casos, un 9 % superior al de GPT-4o, y utiliza una función Hack más reciente. Mediante pruebas de seguridad, evaluamos el impacto de las sugerencias de parches de IA en el tiempo de revisión y abordamos el retraso en el tiempo de revisión mediante mejoras de la experiencia de usuario (UX). Al implementarse en un entorno de producción, el modelo LargeLSFT alcanzó una tasa de ActionableToApplied del 19,7 %, un 9,2 % superior al de GPT-4o.

Takeaways, Limitations

•

Takeaways:

◦

Demuestra la viabilidad de construir y operar eficazmente un sistema de generación automática de parches basado en IA en un entorno de revisión de código a gran escala.

◦

Presentamos formas de aumentar la aplicabilidad práctica de los sistemas de IA a través de pruebas de seguridad y mejoras de UX.

◦

Se logró un rendimiento superior al GPT-4o basado en el modelo Llama.

◦

Presentación de un estudio de caso de implementación exitosa a gran escala de sistemas habilitados para IA.

•

Limitations:

◦

Dado que los resultados se basan en metadatos internos, la generalización a otros entornos puede ser limitada.

◦

El hecho de que se revelaran problemas con el diseño UX inicial durante el proceso de pruebas de seguridad sugiere que es necesario tener precaución al desarrollar sistemas similares en el futuro.

◦

Con una relación Acción-Aplicación inferior al 20 %, la IA no genera parches de manera efectiva para todos los comentarios de revisión de código.

Ver PDF

Made with Slashpage