[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

BriLLM: Modelo de lenguaje grande inspirado en el cerebro

Created by
  • Haebom

Autor

Hai Zhao, Hongqiu Wu, Dongjie Yang, Anni Zou, Jiale Hong

Describir

Este artículo presenta por primera vez un modelo de lenguaje a gran escala inspirado en el cerebro (BriLLM), que se diferencia de métodos existentes como Transformer o GPT. BriLLM es una red neuronal basada en la definición de flujo de señal completamente conectado (SiFu) en un grafo dirigido. A diferencia de los modelos existentes, que se limitan a la entrada y la salida, BriLLM proporciona interpretabilidad para todos los nodos del grafo completo. Los tokens se definen como nodos en el grafo, y las señales fluyen entre ellos según el principio de "mínima resistencia". El siguiente token es el objetivo del flujo de señal, y dado que el tamaño del modelo es independiente de la longitud de entrada y predicción, teóricamente admite modelos de n-gramas infinitamente largos. El flujo de señal proporciona reactivación y soporte multimodal similar a los patrones cognitivos del cerebro humano. Actualmente, se ha publicado la versión china de BriLLM (4000 tokens, ancho de nodo de 32 dimensiones, predicción de secuencia de 16 tokens) y muestra un rendimiento similar al de GPT-1.

Takeaways, Limitations

Takeaways:
Presentamos un modelo de lenguaje a gran escala con una nueva arquitectura diferente de los modelos existentes basados en Transformers
Proporciona interpretabilidad de todo el modelo.
Teóricamente es posible soportar modelos n-gramas infinitamente largos
Sugiere posibilidades de reactivación y apoyo multimodal similares a los patrones cognitivos del cerebro humano.
Lograr un rendimiento de nivel GPT-1 con relativamente pocos recursos
Limitations:
El modelo publicado actualmente es de tamaño pequeño (4000 tokens) y tiene una capacidad limitada para procesar secuencias largas (16 tokens).
Se requiere más potencia computacional y verificar el rendimiento y la eficiencia al escalar a modelos de gran escala.
Todavía falta soporte para otros idiomas, incluido el inglés.
Aunque afirma estar inspirado en el cerebro, se necesita una explicación más detallada sobre su correspondencia exacta con el funcionamiento real del cerebro.
👍