Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Las utilidades individuales de la satisfacción con la vida revelan una aversión a la desigualdad no relacionada con la alineación política

DischargeSim: Un modelo de simulación para la comunicación educativa médico-paciente en el momento del alta

Regularización de gaussianidad basada en espectros de momento y potencia para modelos de texto a imagen

Concepto computacional de la psique (en ruso)

MachineLearningLM: Escalado del aprendizaje contextual de múltiples disparos mediante preentrenamiento continuo

La frontera de la eficiencia: sombras clásicas versus imágenes cuánticas

BranchGRPO: GRPO estable y eficiente con ramificación estructurada en modelos de difusión

Cuantificación de la incertidumbre en modelos probabilísticos de aprendizaje automático: teoría, métodos y perspectivas

CURE: Desaprendizaje controlado para incrustaciones robustas: mitigación de atajos conceptuales en modelos de lenguaje preentrenados

Revelando precursores ocultos de terremotos mediante una transformación del ruido sísmico sensible al estrés

ASE: Un punto de referencia a nivel de repositorio para evaluar la seguridad en el código generado por IA

Comportamientos y preferencias subjetivas en LLM: Lenguaje de navegación

Más allá de diez turnos: Desbloqueo de la búsqueda agente de largo plazo con aprendizaje automático asincrónico a gran escala

SGDFuse: Difusión guiada por SAM para fusión de imágenes infrarrojas y visibles de alta fidelidad

Modelos lingüísticos de autocuestionamiento

MetaExplainer: Un marco para generar explicaciones multitipo centradas en el usuario para sistemas de IA

¿Cómo deberíamos metaaprender los algoritmos de aprendizaje de refuerzo?

Evaluación integral de prototipos de redes neuronales

HIRAG: Pensamiento jerárquico, instrucción, ajuste, recuperación y generación aumentada

CyberRAG: una herramienta de clasificación y generación de informes de ciberataques de Agentic RAG

Aprendizaje de refuerzo jerárquico multiescala temporal para el comportamiento unificado y el control de la conducción autónoma

Un modelo de representación no lineal de bajo rango con red neuronal convolucional para la imputación de datos de calidad del agua

VIDEO: Descomposición, ejecución y evaluación visual e interactiva de análisis de texto con agentes inteligentes

Difusión discreta en lenguajes extensos y modelos multimodales: un estudio

De la defensa estática a la adaptativa: defensa de objetivos móviles basada en aprendizaje de refuerzo profundo multiagente federado contra ataques DoS en redes de enjambre de UAV

¿Qué tan lejos estamos de la eficiencia óptima del razonamiento?

¿Quiénes son los nombres mencionados? Auditoría de las recomendaciones académicas basadas en el Máster en Derecho (LLM)

Criterios de detención para la iteración de valor en juegos concurrentes de alcanzabilidad y seguridad estocástica

Su modelo de lenguaje puede escribir en secreto como los humanos: ataques de paráfrasis contrastiva en detectores de texto generados por LLM

Ingeniería de aviso previo para el ajuste fino del refuerzo

Los grandes errores del modelo lingüístico surgen de la alucinación de características críticas del problema

CoT-RAG: Integración de la cadena de pensamiento y la recuperación-generación aumentada para mejorar el razonamiento en modelos lingüísticos extensos

TransitReID: Recopilación de datos de tránsito OD con reidentificación dinámica de pasajeros resistente a la oclusión

TerraMind: Multimodalidad generativa a gran escala para la observación de la Tierra

Bucles de entrenamiento recursivos en LLM: ¿Cómo las propiedades de los datos de entrenamiento modulan el cambio de distribución en los datos generados?

Escalado de modelos de lenguaje de vídeo a 10 000 fotogramas mediante destilación diferencial jerárquica

Un enfoque basado en la teoría de decisiones para abordar la incertidumbre en la mecánica cuántica

VIPER: Percepción visual y razonamiento explicable para la toma de decisiones secuencial

LED: Detección de objetos de vocabulario abierto mejorado LLM sin generación de datos seleccionados por humanos

Reangle-A-Video: Generación de vídeo 4D como traducción de vídeo a vídeo

Ver un mundo en una chispa de neurona: desenredar la interferencia multitarea para la fusión de modelos sin entrenamiento

UAR-NVC: Un marco autorregresivo unificado para la compresión de vídeo neuronal con memoria eficiente

MPO: Impulsando a los agentes LLM con la optimización del metaplan

¡Presta atención a las perturbaciones del mundo real! Evaluación de la robustez natural en la comprensión lectora de máquinas.

Un modelo de lenguaje general para la identificación de péptidos

Más allá de los datos vistos: mejora de la generalización de KBQA mediante la generación de formas lógicas guiadas por esquemas

CoAT: Marco de cadena de pensamientos asociados para mejorar el razonamiento de modelos lingüísticos amplios

Cuidado con la brecha entre valor y acción: ¿Los LLM actúan en consonancia con sus valores?

Reparación de trayectorias conforme a las normas de tráfico mediante teorías de módulos de satisfacibilidad y análisis de alcanzabilidad

QR-VC: Aprovechamiento de los residuos de cuantificación para el desenredo lineal en la conversión de voz de disparo cero

IA generativa para la ampliación de datos en redes inalámbricas: análisis, aplicaciones y estudio de caso

Inversión de compresión de rango dinámico mejorada neuronalmente: un enfoque híbrido para restaurar la dinámica del audio

La búsqueda del mediador adecuado: un estudio de la interpretabilidad mecanicista a través del análisis de la mediación causal

PriorCLIP: Modelo visual de visión y lenguaje guiado por prior para la recuperación de imágenes y texto mediante teledetección

Un enfoque transformador para la previsión de precios de la electricidad

FedComLoc: Entrenamiento distribuido de modelos dispersos y cuantificados con comunicación eficiente

PQMass: Evaluación probabilística de la calidad de los modelos generativos mediante la estimación de masa de probabilidad

HiPhO: ¿Qué tan lejos están los (M)LLM de los humanos en el último punto de referencia de las Olimpiadas de Física de la escuela secundaria?

Hacia un soporte de decisiones explicable mediante modelos neuronales híbridos para la automatización de terminales logísticas

BlendedNet: un conjunto de datos de aeronaves con fuselaje de ala combinada y un modelo sustituto para predicciones aerodinámicas

Eso es tan FETCH: Creación de técnicas de conjunto para la clasificación LLM en admisión y derivación legal civil

Leyes de Murphy sobre la alineación de la IA: Por qué la brecha siempre gana

Monitoreo adaptativo y evaluación en el mundo real de sistemas de IA con agentes

Reduciendo la brecha en la IA oftálmica: conjunto de datos MM-Retinal-Reason y el modelo OphthaReason hacia el razonamiento multimodal dinámico

Comprender la atención visual detrás de la navegación de vehículos aéreos no tripulados (UAV) inspirada en las abejas

Trabajar con IA: medición de la aplicabilidad de la IA generativa a las ocupaciones

Escalamiento de la planificación LLM: NL2FLOW para la generación de problemas paramétricos y la evaluación rigurosa

Finalización de gráficos de conocimiento basados en el contexto con paso de mensajes relacionales con conciencia semántica

Aprendizaje relacional de pocos intentos aumentado con metasemántica

Perovskite-LLM: Modelos de lenguaje grande basados en el conocimiento para la investigación de células solares de perovskita

Gráficos de conocimiento asociativo para el almacenamiento y la recuperación eficientes de secuencias

Planificación epistémica limitada por profundidad

Una encuesta sobre aprendizaje de refuerzo para modelos de razonamiento de gran tamaño

Hacking de modelos de lenguaje grandes: cuantificación de los riesgos ocultos del uso de LLM para la anotación de texto

QCardEst/QCardCorr: Estimación y corrección de la cardinalidad cuántica

Destilación de fusión de pensamientos

MoVoC: Construcción de subpalabras con morfología para lenguajes Geez Script

Escalando la verdad: la paradoja de la confianza en la verificación de datos con IA

PianoVAM: Un conjunto de datos multimodal de interpretación de piano

Un marco de aprendizaje profundo integral para el diagnóstico de arsenicosis mediante imágenes de piel capturadas con dispositivos móviles

Uso de IA para optimizar la transferencia de pacientes y la utilización de recursos durante incidentes con muchas víctimas: una plataforma de simulación

AgentGym-RL: Formación de agentes LLM para la toma de decisiones a largo plazo mediante aprendizaje de refuerzo multiturno

Aprendizaje de flujos turbulentos con modelos generativos: superresolución, pronóstico y reconstrucción de flujo disperso

FinZero: Lanzamiento de un pronóstico de series temporales financieras multimodales con un modelo de razonamiento amplio

DEQuifica tu campo de fuerza: Simulaciones más eficientes utilizando modelos de equilibrio profundo

X-Teaming Evolutionary M2S: Descubrimiento automatizado de plantillas de jailbreak de múltiples turnos a turnos únicos

Explicabilidad de los modelos de clasificación basados en CNN para señales acústicas

TANGO: Navegación con capacidad de transitabilidad y control métrico local para objetivos topológicos

Una arquitectura en capas para el análisis de registros en sistemas de TI complejos

Reformulando el algoritmo de avance hacia adelante con un objetivo basado en la similitud

Reconocimiento de lenguaje de señas basado en esqueletos mediante una red convolucional de gráficos dinámicos espacio-temporales de doble flujo

Aprendizaje robusto de políticas de estados de creencias para el enrutamiento de redes cuánticas en condiciones de decoherencia y variación temporal

Arquitectura de agentes LLM resilientes: una guía para implementar de forma segura y planificar y luego ejecutar

RoentMod: Un modelo sintético de modificación de rayos de tórax X-para identificar y corregir los atajos del modelo de interpretación de imágenes

UOPSL: Aprendizaje de sitios de predilección OCT no pareados para el aumento del diagnóstico por imágenes del fondo de ojo

OTESGN: Redes de grafos sintáctico-semánticos mejorados con transporte óptimo para el análisis de sentimientos basado en aspectos

Clasificación de comportamientos de movimiento de 24 horas a partir de datos de acelerómetros de muñeca: desde funciones artesanales hasta técnicas de aprendizaje profundo

Memorización en grandes modelos lingüísticos en medicina: prevalencia, características e implicaciones

Interpretabilidad como alineación: hacer de la comprensión interna un principio de diseño

MESH - Entendiendo los videos como humanos: Medición de alucinaciones en modelos de video grandes

ASE: Un punto de referencia a nivel de repositorio para evaluar la seguridad en el código generado por IA

Created by

Haebom

Autor

Keke Lian, Bin Wang, Lei Zhang, Libo Chen, Junjie Wang, Ziming Zhao, Yujiu Yang, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, Dong Zhang

Describir

Este artículo destaca la importancia de evaluar la seguridad del código generado, impulsada por el creciente uso de modelos de lenguaje a gran escala (LLM) en ingeniería de software. Los benchmarks existentes carecen de relevancia para escenarios reales de programación de IA, lo que los hace inadecuados para evaluar los riesgos de seguridad prácticos asociados al código generado por IA en entornos reales. Para abordar este problema, este artículo presenta la Evaluación de Seguridad de Generación de Código de IA (ASE), un benchmark de evaluación a nivel de repositorio diseñado para reflejar con precisión las tareas de programación de IA en el mundo real. Las evaluaciones de los principales LLM que utilizan ASE revelan que los LLM actuales presentan dificultades para la codificación segura, y la complejidad de los escenarios a nivel de repositorio presenta desafíos para los LLM que suelen tener un buen rendimiento en tareas a nivel de fragmento de código. Además, demostramos que mayores presupuestos de inferencia no necesariamente conducen a una mejor generación de código. Estas observaciones proporcionan información valiosa sobre el estado actual de la generación de código de IA, ayudan a los desarrolladores a seleccionar los modelos más adecuados para sus tareas y sientan las bases para mejorar los LLM y generar código seguro y eficiente en aplicaciones reales.

Takeaways, Limitations

•

Takeaways:

◦

Un nuevo punto de referencia, ASE, refleja escenarios de programación de IA del mundo real.

◦

Revelando las limitaciones de la capacidad del LLM actual para generar código seguro.

◦

Analizar el impacto de la complejidad de la operación a nivel de almacenamiento en el rendimiento de LLM.

◦

No encontramos correlación entre el presupuesto de inferencia y la calidad de generación de código.

◦

Selección de LLM para desarrolladores y direcciones para la mejora del LLM

•

Limitations:

◦

Se necesitan más investigaciones para determinar la generalización del índice de referencia ASE.

◦

Necesidad de ampliar las evaluaciones para varios LLM y lenguajes de programación

◦

Se necesitan mejoras de referencia para reflejar escenarios del mundo real más complejos y diversos.

Ver PDF

Made with Slashpage