[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GenKnowSub: Improving Modularity and Reusability of LLMs through General Knowledge Subtraction

Created by
  • Haebom

저자

Mohammadtaha Bagherifard, Sahar Rajabi, Ali Edalat, Yadollah Yaghoobzadeh

개요

본 논문은 대규모 언어 모델(LLM)의 제로샷 일반화 문제를 해결하기 위해, 일반 지식과 작업 특정 적응을 분리하는 모듈형 프레임워크인 GenKnowSub을 제안한다. GenKnowSub은 일반 도메인 LoRA와 여러 작업 특정 LoRA 모듈 라이브러리를 구성하고, 각 작업 특정 모듈에서 일반 지식 요소를 빼서 작업 관련 정보에 집중하는 잔차 모듈을 생성한다. Arrow routing 알고리즘을 활용하여 추가 훈련 없이 새로운 입력에 대해 모듈을 동적으로 선택하고 결합한다. Phi-3 모델과 표준 Arrow를 기준으로 영어, 프랑스어, 독일어 등 다양한 언어에서 파생된 일반 지식 LoRA를 사용하면 다양한 벤치마크에서 일관된 성능 향상을 보인다는 것을 실험적으로 보여준다. 또한 Phi-2 모델에서도 GenKnowSub의 일반화 성능을 검증한다.

시사점, 한계점

시사점:
LLM의 제로샷 일반화 성능 향상을 위한 새로운 모듈형 프레임워크 GenKnowSub 제안.
일반 지식과 작업 특정 지식의 분리가 제로샷 성능 향상에 효과적임을 실험적으로 증명.
다국어 일반 지식 LoRA 활용을 통한 단일 언어 및 교차 언어 설정 모두에서 성능 향상.
약한 LLM에도 일반화 가능성을 보임.
코드와 데이터 공개를 통한 재현성 확보.
한계점:
제안된 방법의 효과가 특정 모델과 벤치마크에 국한될 가능성.
Arrow routing 알고리즘에 대한 의존성.
더욱 다양한 LLM과 벤치마크에 대한 추가적인 실험 필요.
일반 지식과 작업 특정 지식의 분리 기준에 대한 추가적인 연구 필요.
👍