Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

BriLLM: Brain-inspired Large Language Model

Created by
  • Haebom

저자

Hai Zhao, Hongqiu Wu, Dongjie Yang, Anni Zou, Jiale Hong

개요

본 논문은 Transformer나 GPT와 같은 기존의 기법을 사용하지 않는 새로운 대규모 언어 모델인 BriLLM(Brain-inspired Large Language Model)을 제시합니다. BriLLM은 신호 완전 연결 흐름(SiFu)을 기반으로 한 지향성 그래프 상에서 동작하며, 입력과 출력에 국한되지 않고 모델 전체 그래프의 모든 노드에 대한 해석 가능성을 제공합니다. 토큰은 그래프의 노드로 정의되며, 신호는 "최소 저항" 원칙에 따라 노드 간을 흐릅니다. 다음 토큰은 신호 흐름의 목표가 되며, 이론적으로 모델 크기가 입력 및 예측 길이와 무관하기 때문에 무한히 긴 n-gram 모델을 지원합니다. BriLLM은 인간 뇌의 인지 패턴과 유사한 재호출 활성화 및 다중 모드 지원 가능성을 제공합니다. 현재 중국어 기반의 4000개 토큰, 32차원 노드 너비, 16토큰 시퀀스 예측 능력을 가진 첫 번째 버전이 공개되었으며, GPT-1과 비슷한 성능을 보입니다.

시사점, 한계점

시사점:
기존 Transformer 기반 모델과 다른 새로운 아키텍처를 제시하여 대규모 언어 모델 연구에 새로운 방향을 제시합니다.
모델 전체의 해석 가능성을 제공하여 기존 모델의 블랙박스 문제를 해결하는 데 기여할 수 있습니다.
이론적으로 무한히 긴 n-gram 모델을 지원하여 기존 모델의 길이 제한 문제를 극복할 수 있는 가능성을 보여줍니다.
인간 뇌의 인지 패턴과 유사한 동작 방식을 통해 다양한 모달리티 지원 및 재호출 활성화 기능을 제공할 수 있는 잠재력을 가지고 있습니다.
한계점:
현재 공개된 버전은 GPT-1 수준의 성능을 보이며, 더 높은 성능을 위해서는 추가적인 연구 및 더 많은 연산 능력이 필요합니다.
모델의 크기가 무한히 긴 n-gram을 지원한다는 이론적인 주장은 실제 구현 및 성능 평가를 통해 검증되어야 합니다.
중국어 기반 모델만 공개되어 있으며, 다른 언어에 대한 적용 가능성 및 성능은 추가적인 연구가 필요합니다.
"최소 저항" 원칙의 구체적인 구현 방식과 그 효율성에 대한 자세한 설명이 부족합니다.
👍