[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mezcla simbólica de expertos: enrutamiento adaptativo basado en habilidades para razonamiento heterogéneo

Created by
  • Haebom

Autor

Justin Chih-Yao Chen, Sukwon Yun, Elias Stengel-Eskin, Tianlong Chen, Mohit Bansal

Describir

Este artículo presenta un método para combinar LLM (Modelos de Lenguaje de Gran Tamaño) expertos preentrenados para gestionar eficientemente tareas diversas y a gran escala. Para superar las limitaciones de los métodos actuales de selección de expertos basados en tareas, proponemos un marco de MoE Simbólico que permite la mezcla adaptativa de expertos a nivel de instancia. MoE Simbólico selecciona dinámicamente LLM expertos relevantes mediante un enfoque de grano fino que se centra en habilidades como el álgebra en matemáticas y la biología molecular en el razonamiento biomédico. Cada experto seleccionado genera su propia inferencia, y los resultados se sintetizan en una respuesta final de alta calidad mediante un agregador seleccionado en función de su capacidad para integrar diversos resultados de inferencia. Para abordar la alta sobrecarga computacional de la carga y descarga de modelos, implementamos una estrategia por lotes que agrupa las instancias en función de los expertos asignados para mejorar la eficiencia. Nuestro enfoque supera a GPT4o-mini y a los enfoques multiagente en diversas pruebas de referencia (MMLU-Pro, GPQA, AIME, MedMCQA), logrando una mejora promedio del rendimiento del 8,15 % con respecto al mejor modelo multiagente de referencia. Además, se generaliza bien a nuevas tareas y supera a los modelos de referencia basados en discusiones al no requerir costosas discusiones de varias rondas.

Takeaways, Limitations

Takeaways:
Posibilidad de mejorar el rendimiento de los LLM mediante la selección de expertos a nivel de instancia
Demostrando la eficacia de una estrategia de selección de expertos basada en habilidades
Reducir la sobrecarga computacional mediante estrategias de ubicación eficientes
Logra un rendimiento que supera a los modelos de alto rendimiento existentes en una variedad de puntos de referencia.
Lograr un rendimiento excelente y mejorar el rendimiento de generalización sin discusiones de varias rondas
Limitations:
Se necesita más investigación sobre la escalabilidad del método propuesto (rendimiento y eficiencia al utilizar modelos más expertos).
Es necesaria una verificación adicional de la objetividad y fiabilidad de los criterios de evaluación de la experiencia en tecnologías específicas.
Es necesario evaluar más a fondo el rendimiento de la generalización en diferentes tipos de tareas.
Se necesita más investigación para optimizar la estrategia de selección de agregadores.
👍