Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

HoPE: Codificación posicional rotatoria hiperbólica para el modelado de dependencias estables de largo alcance en modelos de lenguaje extensos

Análisis comparativo de modelos de transformadores en la clasificación de tweets de desastres para la seguridad pública

Dinámicas sociales emergentes de los agentes LLM en el problema del bar El Farol

Lo bueno, lo malo y lo constructivo: medición automática de la utilidad de la revisión por pares para los autores

Los paisajes energéticos permiten una abstención fiable en modelos de lenguaje grande aumentados por recuperación para la atención médica

DEXOP: Un dispositivo para la transferencia robótica de la manipulación humana diestra

Aprendizaje por refuerzo para un control robusto del envejecimiento de sistemas de baterías de iones de litio con verificación formal basada en datos

RepoDebug: evaluación de depuración multitarea y multilenguaje a nivel de repositorio de modelos de lenguaje grandes

Modelado de cámara de eco de pozo de gravedad con un modelo de sesgo de confirmación basado en LLM

Perspectivas de la dinámica de gradientes: normalización de gradientes con escala automática

Virtuoso eficiente: un modelo de transformador de difusión latente para la planificación de trayectorias condicionadas por objetivos

MoSEs: Detección de texto generada por IA con conocimiento de la incertidumbre mediante la combinación de expertos en estilística con umbrales condicionales

DCPO: Optimización de la política de recorte dinámico

DSDE: Decodificación especulativa dinámica con estabilidad KLD para servicios en el mundo real

¿Puede la IA ser auditable?

Detección robótica de riesgos de incendio basada en razonamiento de grafos de conocimiento dinámicos: un enfoque basado en LLM con cadena de pensamiento de grafos

Navegando por la Ley de IA de la UE: Desafíos previsibles en la cualificación de las inspecciones automatizadas basadas en aprendizaje profundo de dispositivos médicos de clase III

Un sistema de aprendizaje complementario facilita el aprendizaje continuo en línea de la predicción del movimiento de vehículos en ciudades inteligentes.

MultiPL-MoE: Extensión multilingüe de programación de grandes modelos de lenguaje mediante una combinación híbrida de expertos

QuadKAN: Control de movimiento cuadrúpedo mejorado con KAN mediante aprendizaje de refuerzo de extremo a extremo

MovieCORE: Razonamiento cognitivo en el cine

Optimización automática de indicaciones con destilación rápida

Ataques de inferencia de membresía en sistemas de recomendación basados en LLM

Aprovechamiento de modelos lingüísticos de gran tamaño para una traducción precisa del lenguaje de señas en situaciones de bajos recursos

Optimización de la política de expectativas grupales para el aprendizaje de refuerzo heterogéneo

Convergencia y generalización de la antiregularización para modelos paramétricos

Jet-Nemotron: Modelo de lenguaje eficiente con búsqueda de arquitectura postneural

CARFT: Impulso del razonamiento LLM mediante aprendizaje contrastivo con ajuste fino reforzado basado en cadena de pensamiento anotada

Uniendo la generalización y la personalización en el reconocimiento de la actividad humana mediante el aprendizaje de pocos disparos en el dispositivo

FinAgentBench: Un conjunto de datos de referencia para la recuperación de agentes en la respuesta a preguntas financieras

Uso de la intuición artificial en una clasificación minimalista y diferenciada de resúmenes científicos para la gestión de carteras tecnológicas

Detector de discrepancias semánticas para la identificación de falsificaciones de imágenes

Soluciones de aprendizaje de refuerzo con eficiencia cuántica para la entrega a demanda en la última milla

BadPromptFL: Una nueva amenaza de puerta trasera para el aprendizaje federado basado en indicaciones en modelos multimodales

Confiabilidad basada en la incertidumbre: predicción selectiva e implementación confiable en el aprendizaje automático moderno

Análisis en tiempo real de datos no estructurados con aprendizaje automático en arquitecturas heterogéneas

VSI: Integración visual de subtítulos para la selección de fotogramas clave y una mejor comprensión de vídeos largos

SGDFuse: Difusión guiada por SAM para fusión de imágenes infrarrojas y visibles de alta fidelidad

Un MILP eficiente de tiempo continuo para la programación y el diseño integrados de hangares de aeronaves

DIRF: Un marco para la protección de la identidad digital y la gobernanza de clones en sistemas de IA de agentes

COLLAGE: Recuperación adaptativa basada en fusión para el aprendizaje aumentado de políticas

Razonamiento adaptativo dinámico a través de MCTS guiado por LLM para una KGQA eficiente y consciente del contexto

Refinamiento de pseudoetiquetas de gráficos anidados para el aprendizaje de adaptación del dominio de etiquetas ruidosas

LanternNet: un sistema de concentrador y radios para buscar y eliminar poblaciones de moscas linterna moteadas

RecPS: Puntuación de riesgo de privacidad para sistemas de recomendación

El ajuste fino supervisado de datos seleccionados es aprendizaje de refuerzo (y se puede mejorar)

Marco de apoyo multiagente basado en LLM y juego de roles para detectar y abordar el sesgo de comunicación familiar

PLAME: El diseño ligero de MSA mejora el plegamiento de proteínas a partir de incrustaciones evolutivas

Driver-Net: Fusión multicámara para evaluar la preparación del conductor para asumir el control en vehículos automatizados

Aprovechamiento de imágenes sin etiquetar fuera de distribución: segmentación semántica semisupervisada con un modelo de vocabulario abierto

Las estructuras visuales ayudan al razonamiento visual: abordar el problema de la vinculación en los VLM

Redes neuronales bayesianas precisas

Transporte para todos: mapeo de la conexión equitativa entre bicicletas y metro mediante el aprendizaje de representación regional

Escalamiento de la inteligencia: diseño de centros de datos para modelos de lenguaje de última generación

Segmentación de imágenes con modelos de lenguaje de gran tamaño: un estudio con perspectivas para sistemas de transporte inteligentes

SAIL: Ejecución más rápida que la demostración de políticas de aprendizaje por imitación

Simulación del comportamiento electoral en el Parlamento Europeo basada en personajes con modelos lingüísticos de gran tamaño

Control del equilibrio bípedo con simulaciones musculoesqueléticas de cuerpo entero de pie y caída

Informe técnico: Pronóstico y planificación de las leyes de escala del movimiento

Métodos eficientes de aprendizaje $Q$ y actor-crítico para un aprendizaje de refuerzo robusto con recompensa promedio

¿Quién recibe el crédito o la culpa? Atribución de responsabilidad en los sistemas de IA modernos

Emparejamiento de tipos celulares evolutivos no supervisados mediante transporte óptimo con entropía minimizada

Clasificación de múltiples salidas mediante una arquitectura de diafonía para el diagnóstico de fallas compuestas de motores en condición de etiquetado parcial

SoloSpeech: Mejora de la inteligencia y la calidad en la extracción del habla objetivo mediante un canal generativo en cascada

Orientación del razonamiento en LLM mediante la adaptación basada únicamente en sesgos

MetaSTH-Sleep: Hacia una clasificación eficaz de las etapas del sueño en pocas tomas para la gestión de la salud con metaaprendizaje mejorado con hipergrafos espacio-temporales

InterFeat: Un canal para encontrar características científicas interesantes

HumaniBench: Un marco centrado en el ser humano para la evaluación de grandes modelos multimodales

Avances en la clasificación de textos científicos: modelos optimizados con expansión de conjuntos de datos y votación directa

Pruébelo antes de confiar: Aplicación de pruebas de software para un aprendizaje en contexto confiable

Coincidencia de flujos de acción para el aprendizaje continuo del robot

Abordar el etiquetado incorrecto de conceptos en los modelos de cuello de botella conceptual mediante la optimización de preferencias

Nemotron-H: Una familia de modelos híbridos Mamba-Transformer precisos y eficientes

Aprendizaje federado robusto bizantino mediante redes generativas antagónicas

Más allá de SHAP y Anchors: un experimento a gran escala sobre cómo los desarrolladores luchan por diseñar explicaciones significativas para el usuario final

VIPER: Percepción visual y razonamiento explicable para la toma de decisiones secuencial

DistJoin: un estimador de cardinalidad de unión desacoplada basado en modulación de predicados neuronales adaptativos

Oro de baja confianza: refinamiento de muestras de baja confianza para un ajuste eficiente de las instrucciones

¿Asistencia o disrupción? Exploración y evaluación del diseño y las ventajas y desventajas del soporte proactivo para la programación de IA.

Los ataques de tokens blandos no pueden auditar de forma fiable el desaprendizaje en modelos de lenguaje grandes

CHIRLA: Identificación y reidentificación integral de alta resolución para análisis a gran escala

Redes de Fourier de Kolmogorov-Arnold

Posición: Los LLM pueden ser buenos tutores en la educación en inglés

Predicción del comportamiento en estado estacionario en redes complejas con redes neuronales gráficas

Separar el movimiento de la apariencia: personalizar el movimiento mediante la personalización de modelos de difusión de texto a vídeo

Segmentación de la anatomía cardíaca mejorada por el movimiento mediante un módulo de atención temporal insertable

Sesgo en la toma de decisiones para los dilemas éticos de la IA: un estudio comparativo de ChatGPT y Claude

OmniThink: Ampliando los límites del conocimiento en la escritura automática a través del pensamiento

DispFormer: un transformador preentrenado que incorpora restricciones físicas para la inversión de la curva de dispersión

Integración de evidencia en el diseño de sistemas de apoyo a la toma de decisiones basados en XAI e IA: un marco de medios y fines para usuarios finales en la construcción

Revelando el impacto de las muestras nativas sintéticas y las estrategias multitarea en la detección del humor y el sarcasmo en código hindi-inglés

Ecuaciones algebraicas diferenciales hamiltonianas de puerto neuronal para el aprendizaje compositivo de redes eléctricas

Difusiones de Langevin controladas secuencialmente

Aprendizaje federado que preserva la privacidad mediante redes antagónicas homomórficas

CAREL: Aprendizaje de refuerzo guiado por instrucción con objetivos auxiliares intermodales

Lecciones del estudio del razonamiento latente de dos saltos

HierTOD: Un sistema de diálogo orientado a tareas e impulsado por objetivos jerárquicos

Computación convolucional distribuida y codificada flexible para mejorar la resiliencia de rezagados y la estabilidad numérica en CNN distribuidas

FACEGroup: Explicaciones contrafácticas viables y viables para la equidad grupal

ETF: Un marco de rastreo de entidades para la detección de alucinaciones en el código Resumen

RepoDebug: evaluación de depuración multitarea y multilenguaje a nivel de repositorio de modelos de lenguaje grandes

Created by

Haebom

Autor

Jingjing Liu, Zeming Liu, Zihao Cheng, Mengliang He, Xiaoming Shi, Yuhang Guo, Xiangrong Zhu, Yuanfang Guo, Yunhong Wang, Haifeng Wang

Describir

Este artículo se centra en las capacidades de depuración de código de los modelos de lenguaje a gran escala (LLM), en particular su capacidad de reparación automática de programas. Destacamos las limitaciones de los conjuntos de datos de depuración de código existentes, que se centran principalmente en la reparación de código a nivel de función y no contemplan escenarios realistas a nivel de repositorio. Por lo tanto, presentamos RepoDebug, un conjunto de datos de depuración de código a nivel de repositorio multitarea y multilenguaje que abarca una amplia gama de tareas, lenguajes y tipos de error. RepoDebug admite ocho lenguajes de programación, 22 tipos de error y tres tareas de depuración. Los resultados experimentales con diez LLM demuestran que incluso el modelo de mayor rendimiento, Claude 3.5 Sonnect, presenta un rendimiento deficiente en la depuración a nivel de repositorio.

Takeaways, Limitations

•

Takeaways:

◦

Ofrecemos RepoDebug, un conjunto de datos de depuración de código a nivel de repositorio realista, que establece un nuevo estándar para evaluar el rendimiento de depuración de código de LLM.

◦

Ayuda a evaluar la generalización de LLM al incluir varios lenguajes de programación y tipos de errores.

◦

Presenta claramente el estado actual y las limitaciones de las capacidades de depuración de código a nivel de repositorio de LLM.

•

Limitations:

◦

Es posible que el conjunto de datos RepoDebug aún no cubra por completo todos los tipos de errores a nivel de repositorio y lenguajes de programación.

◦

Los tipos de LLM utilizados en la evaluación pueden ser limitados.

◦

Es posible que no refleje completamente la complejidad de la depuración a nivel de repositorio.

Made with Slashpage