Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Focusing on Language: Revealing and Exploiting Language Attention Heads in Multilingual Large Language Models

Created by
  • Haebom
Category
Empty

저자

Xin Liu, Qiyang Song, Qihang Zhou, Haichao Du, Shaowen Xu, Wenbo Jiang, Weijuan Zhang, Xiaoqi Jia

개요

본 연구는 대규모 언어 모델(LLM)의 다국어 처리 능력에서 멀티 헤드 셀프 어텐션(MHA)의 역할을 연구합니다. Language Attention Head Importance Scores (LAHIS)라는 효율적인 방법을 제안하여, LLM을 한 번의 순방향 및 역방향 패스로 통과시켜 다국어 능력에 대한 어텐션 헤드의 중요성을 파악합니다. Aya-23-8B, Llama-3.2-3B, Mistral-7B-v0.1 모델에 LAHIS를 적용한 결과, 언어별 헤드와 언어 일반 헤드가 모두 존재함을 밝혀냈습니다. 언어별 헤드는 상호 언어 간 어텐션 전송을 가능하게 하여, 모델이 대상 언어 컨텍스트에 집중하도록 돕고, 잘못된 언어 생성을 줄여 다국어 LLM의 문제 해결에 기여합니다. 또한, XQuAD 정확도 향상을 위해 20개의 튜닝 가능한 파라미터만으로 어텐션 헤드 출력을 조절하는 경량 어댑테이션을 도입했습니다.

시사점, 한계점

시사점:
MHA가 LLM의 다국어 능력에 중요한 역할을 한다는 것을 밝힘.
LAHIS를 통해 어텐션 헤드의 중요성을 효과적으로 파악하는 방법을 제시.
언어별 및 언어 일반 헤드의 존재를 밝힘으로써 LLM의 다국어 처리 방식에 대한 새로운 통찰력을 제공.
경량 어댑테이션을 통해 LLM의 다국어 능력을 향상시킬 수 있는 가능성을 제시.
한계점:
구체적인 한계점은 논문 내용에 명시되지 않음. (논문 요약 정보만 제공됨)
👍