Sign In

Federated Attention: A Distributed Paradigm for Collaborative LLM Inference over Edge Networks

Created by
  • Haebom
Category
Empty

저자

Xiumei Deng, Zehui Xiong, Binbin Chen, Dong In Kim, Merouane Debbah, H. Vincent Poor

개요

대규모 언어 모델(LLM)의 협업 환경 배포 시 발생하는 개인 정보 보호 취약성, 통신 오버헤드, 계산 병목 현상 문제를 해결하기 위해, 페더레이티드 방식을 자기 주의 메커니즘에 통합한 새로운 분산 LLM 추론 프레임워크인 FedAttn을 제안한다. FedAttn은 개인 정보 유출 없이 참여자가 로컬 자기 주의를 수행하고, Key-Value (KV) 행렬을 주기적으로 교환 및 집계하여 LLM 응답을 생성한다. 또한, FedAttn의 맥락적 표현 개선과 페더레이티드 학습(FL)의 매개변수 최적화 간 구조적 이중성을 파악하여, 페더레이티드 최적화 기법을 협업 LLM 추론에 적용할 수 있는 기반을 마련한다. FedAttn은 로컬 자기 주의 계산과 이종 토큰 관련성이 Transformer 블록 전반의 오류 전파 역학에 미치는 영향을 이론적으로 분석하고, 응답 품질과 통신/계산 효율성 간의 기본적인 trade-off를 특징화한다. 실험 결과는 이론적 분석을 뒷받침하며, 희소 주의와 적응형 KV 집계를 통해 최적화 기회를 보여준다.

시사점, 한계점

시사점:
개인 정보 보호, 통신 효율성, 계산 효율성을 동시에 달성하는 새로운 분산 LLM 추론 프레임워크 제시.
페더레이티드 최적화 기법을 협업 LLM 추론에 적용할 수 있는 이론적 기반 마련.
로컬 자기 주의 계산 및 이종 토큰 관련성이 오류 전파에 미치는 영향 분석.
응답 품질과 효율성 간의 trade-off 특성화.
희소 주의 및 적응형 KV 집계를 통한 최적화 가능성 제시.
한계점:
구체적인 실험 환경 및 데이터셋에 대한 정보 부족.
실제 edge 환경에서의 FedAttn 성능에 대한 추가적인 검증 필요.
다른 분산 LLM 프레임워크와의 비교 분석 부족.
👍