[공지사항]을 빙자한 안부와 근황

Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Plataforma de tejido fotónico para aceleradores de IA

Obtención de redes neuronales robustas de estimación de canal mediante datos de entrenamiento diseñados

¿Pueden las imágenes mentales mejorar las capacidades de pensamiento de los sistemas de IA?

Caracterización del rendimiento del modelo de espacio de estados (SSM) y del modelo de lenguaje híbrido SSM-Transformador con una longitud de contexto larga

PGT-I: Escalado de GNN espaciotemporales con entrenamiento distribuido con uso eficiente de memoria

Edición robusta a nivel de pieza con máscara 3D en salpicadura gaussiana 3D con muestreo por destilación de partituras regularizadas

Un marco ligero y robusto para la detección de pólipos colorrectales en tiempo real mediante preprocesamiento basado en LOF y YOLO-v11n

HMID-Net: Una exploración del modelado de imágenes enmascaradas y la destilación del conocimiento en el espacio hiperbólico

Sincronización del comportamiento de las tareas: alineación de múltiples tareas durante el entrenamiento en tiempo de prueba

Resolución de conflictos de gradientes de espacio de tokens: manipulación del espacio de tokens para el aprendizaje multitarea basado en transformadores

Teleoperación bilateral rápida y aprendizaje por imitación mediante control de fuerza sin sensores mediante un modelo dinámico preciso

VisualSpeaker: Síntesis labial de avatar 3D guiada visualmente

Reviviendo el patrimonio cultural: un enfoque novedoso para la restauración integral de documentos históricos

Planificación de movimiento con interacción fusionada: Aprovechamiento eficaz de diversos conjuntos de datos de movimiento para una planificación robusta

Informes de errores de software de aprendizaje: una revisión sistemática de la literatura

Repensando la protección de datos en la era de la inteligencia artificial (generativa)

Destilación de conocimiento alineada con la frecuencia para pronósticos espaciotemporales ligeros

TopoStreamer: Razonamiento topológico de segmentos de carril temporales en la conducción autónoma

“Antes le preguntaba a mi mamá, ahora le pregunto a ChatGPT”: Gestión de la privacidad visual con IA generativa para personas ciegas y con baja visión.

QLPro: Descubrimiento automatizado de vulnerabilidades de código mediante la integración de LLM y análisis de código estático

FedWSQ: Aprendizaje federado eficiente con estandarización de pesos y cuantificación no uniforme con conocimiento de la distribución

Plan para la velocidad: Programación dilatada para modelos de lenguaje de difusión enmascarada

Reduciendo la brecha digital: Modelos de lenguaje pequeño como vía para la educación en física y fotónica en regiones subdesarrolladas

DaMO: Un orquestador multimodal eficiente en datos para razonamiento temporal con LLM de vídeo

Ajuste dinámico del contexto para la generación aumentada por recuperación: mejora de la planificación multiturno y la adaptación de herramientas

Especificación y evaluación de sistemas LLM multiagente: prototipos y aplicaciones de ciberseguridad

PhysioWave: un transformador wavelet multiescala para la representación de señales fisiológicas

Inferencia aproximada basada en borradores para LLM

Enfoque generativo consciente de la semántica de etiquetas para la clasificación multietiqueta independiente del dominio

SemiOccam: una red robusta de reconocimiento de imágenes semisupervisada que utiliza etiquetas dispersas

Optimización de bandidos adversarios para funciones aproximadamente lineales

Saber o no: una biblioteca para evaluar la robustez de la base fuera del conocimiento

Aprovechamiento de los modelos de visión y lenguaje para la fundamentación visual y el análisis de la interfaz de usuario automotriz

DualReal: Entrenamiento conjunto adaptativo para la fusión de identidad y movimiento sin pérdida en la personalización de vídeo

CoordField: Campo de coordinación para la asignación de tareas de vehículos aéreos no tripulados (UAV) en escenarios urbanos de baja altitud.

Limitación de retorno: Optimización del gradiente de política CVaR con eficiencia de muestra

AnyTSR: Superresolución térmica a cualquier escala para vehículos aéreos no tripulados

Estrategia de poda mejorada para arquitecturas neuronales multicomponente mediante análisis de gráficos con reconocimiento de componentes

Abstracciones funcionales ejecutables: inferencia de programas generativos para problemas matemáticos avanzados

Medición de fugas en métodos basados en conceptos: un enfoque teórico de la información

APIGen-MT: Canalización agéntica para la generación de datos multiturno mediante interacción simulada entre agente y humano

El modelo de doble ruta de inducción

Detección del TEPT en entrevistas clínicas: un análisis comparativo de métodos de PNL y modelos de lenguaje amplios

SWI: Hablar con intención en modelos lingüísticos amplios

Un estudio sobre las preferencias de los LLM por bibliotecas y lenguajes de programación

TruthLens: Detección explicable de deepfakes para datos faciales manipulados y totalmente sintéticos

Decisiones de muestreo

Ajuste de instrucción continua federada

Ajuste fino de modelos generativos de difusión mediante optimización de preferencias enriquecidas

BriLLM: Modelo de lenguaje grande inspirado en el cerebro

Estudio de la orientación sobre clasificadores (libres) desde una perspectiva centrada en los clasificadores

RealGeneral: Unificación de la generación visual mediante el aprendizaje temporal en contexto con modelos de vídeo

Search-R1: Formación de LLM para razonar y aprovechar los motores de búsqueda mediante aprendizaje de refuerzo

PLADIS: Ampliando los límites de la atención en los modelos de difusión en el momento de la inferencia aprovechando la escasez

DynamicID: personalización de imágenes multiidentificación de disparo cero con edición facial flexible

Mezcla simbólica de expertos: enrutamiento adaptativo basado en habilidades para razonamiento heterogéneo

OMNISEC: Detección de intrusiones basada en procedencia impulsada por LLM mediante indicaciones de comportamiento aumentadas por recuperación

¿Demasiado en qué confiar? Medición del impacto cognitivo y de seguridad de la explicabilidad en SOCs basados en IA

Asistir o perecer: evaluación comparativa de la atención en el razonamiento algorítmico

¿Puede la eliminación de ruido óptico limpiar las imágenes de sonar? Un enfoque de referencia y fusión

Modelos de la Fundación Cerebral: Un estudio sobre los avances en el procesamiento de señales neuronales y el descubrimiento del cerebro

Ganando a lo grande con modelos pequeños: Destilación de conocimiento vs. autoformación para reducir las alucinaciones en agentes de control de calidad de productos

Detección de contaminación de referencia mediante marcas de agua

MEMERAG: Un punto de referencia de metaevaluación multilingüe de extremo a extremo para la generación aumentada de recuperación

Hacia nuevos espacios de integración: análisis de la alineación interlingüística inducida por intervenciones en modelos lingüísticos multilingües

Analizar las neuronas, no las incrustaciones: comprender cuándo y dónde las representaciones LLM se alinean con los humanos

MKE-Coder: Conocimiento multiaxial con verificación de evidencia en la codificación CIE para registros médicos electrónicos chinos

Un mecanismo general en tiempo real para la clasificación y evaluación de la calidad del arroz

Recuperación por capas y la geometría del conocimiento entrelazado en los LLM

Aprendizaje en sistemas de colas estratégicas con buffers pequeños

BARNN: una red neuronal autorregresiva y recurrente bayesiana

HEPPO-GAE: Optimización de políticas proximales con eficiencia de hardware y estimación de ventaja generalizada

CGP-Tuning: Ajuste de mensajes suaves con reconocimiento de estructura para la detección de vulnerabilidades de código

Una evaluación reciente sobre el desempeño de los LLM en física de oncología radioterápica utilizando preguntas de opciones aleatorias

Una encuesta sobre agentes sociales basados en modelos de lenguaje de gran tamaño en escenarios de teoría de juegos

PEMF-VTO: Prueba virtual con video mejorado por puntos mediante el paradigma sin mascarilla

Comprensión de las decisiones de diseño de los sistemas de generación aumentada por recuperación

DOGR: Hacia una base y referencia visual versátil de documentos

Ev2R: Evaluación de la recuperación de evidencia en la verificación automatizada de datos

DualSwinUnet++: Una arquitectura Swin-Unet mejorada con decodificadores duales para la segmentación PTMC

PerspectiveNet: Percepción multivista para una comprensión dinámica de escenas

AlphaDPO: Margen de recompensa adaptativo para la optimización de preferencias directas

Aprendizaje continuo con computación neuromórfica: fundamentos, métodos y aplicaciones emergentes

FlexiTex: Mejora de la generación de texturas mediante guía visual

ASMA: Un algoritmo de margen de seguridad adaptativo para la navegación de drones con lenguaje de visión mediante funciones de barrera de control conscientes de la escena

Los números que se desanudan, los diagramas difíciles de desanudar y el aprendizaje de refuerzo

Aprendizaje de refuerzo jerárquico para la abstracción temporal de recomendaciones por lista

Mejora del rendimiento de la inferencia del lenguaje natural con Knowledge Graph para la verificación automatizada de datos sobre la COVID-19 en idioma indonesio.

CVPT: Ajuste de indicaciones visuales cruzadas

Diseño competente de redes neuronales gráficas mediante la acumulación de conocimientos sobre modelos de lenguaje grandes

Estimular la imaginación: Hacia una "ubicación de algo algo" de propósito general

¿Por qué los nuevos conocimientos generan efectos dominó confusos en los LLM?

Un marco matemático y un conjunto de técnicas de aprendizaje para sistemas neuronales-simbólicos

Cómo aprovechar las estimaciones de incertidumbre predictiva para reducir el olvido catastrófico en el aprendizaje continuo en línea

Hacia la próxima frontera en el aprendizaje de la representación del habla mediante el desenredo

Taxonomía de estímulos jerárquicos: un marco de evaluación universal para modelos lingüísticos extensos alineado con los principios cognitivos humanos

¿Qué experiencias influyen en los agentes de aprendizaje a distancia? Estimación eficiente de la influencia de las experiencias

Alivio del sobresuavizado en redes neuronales gráficas: un estudio y una visión unificada

OCK: Predicción dinámica de vídeo no supervisada con cinemática centrada en objetos

Evaluación comparativa de agentes de control de dispositivos móviles en diversas configuraciones

AlphaDPO: Margen de recompensa adaptativo para la optimización de preferencias directas

Created by

Haebom

Autor

Junkang Wu, Xue Wang, Zhengyi Yang, Jiancan Wu, Jinyang Gao, Bolin Ding, Xiang Wang, Xiangnan He

Describir

En este artículo, proponemos un novedoso algoritmo de optimización de preferencias adaptativas, denominado α-DPO, para superar las limitaciones de la retroalimentación humana basada en aprendizaje de refuerzo (RLHF), con problemas de eficiencia computacional y estabilidad del entrenamiento, como una forma de alinear los modelos de lenguaje a gran escala (LLM) con los valores e intenciones humanas. α-DPO introduce un margen de recompensa dinámico para reducir la dependencia del modelo de referencia óptimo y resolver el problema de la toma de decisiones subóptimas en diversos entornos de datos. Logra márgenes de recompensa personalizados al equilibrar el modelo de política y el modelo de referencia mediante distribuciones de preferencias adaptativas. Mediante garantías teóricas y evaluaciones experimentales en AlpacaEval 2 y Arena-Hard, demostramos que α-DPO supera a DPO y SimPO, demostrando que es una herramienta poderosa para la alineación de LLM.

Takeaways, Limitations

•

Takeaways:

◦

Se presenta un nuevo algoritmo de optimización de preferencias adaptativas (α-DPO) para abordar los problemas de eficiencia y estabilidad de RLHF.

◦

__T1223_____ Mejora de los métodos existentes (DPO, SimPO) mediante margen de compensación dinámico.

◦

Demostrando la superioridad de α-DPO mediante garantías teóricas y resultados experimentales.

◦

Contribuciones significativas al campo de la alineación LLM.

◦

Reproducibilidad lograda a través del código público.

•

Limitations:

◦

Se necesita un análisis más profundo de la complejidad del algoritmo y del coste computacional.

◦

Es necesario verificar el rendimiento de la generalización en varias arquitecturas y conjuntos de datos LLM.

◦

Se necesitan más estudios sobre la seguridad a largo plazo y los posibles efectos secundarios.

Made with Slashpage