Sign In

Generative Representational Instruction Tuning

Created by
  • Haebom
Category
Empty

저자

Niklas Muennighoff, Hongjin Su, Liang Wang, Nan Yang, Furu Wei, Tao Yu, Amanpreet Singh, Douwe Kiela

개요

본 논문은 생성 및 임베딩 작업 모두를 처리하도록 대규모 언어 모델을 훈련시키는 새로운 방법인 생성 표현 지시 조정(GRIT)을 제안합니다. GRIT은 지시어를 통해 생성 및 임베딩 작업을 구분함으로써 두 작업 모두에서 우수한 성능을 달성합니다. 결과 모델인 GritLM은 Massive Text Embedding Benchmark (MTEB)에서 최첨단 성능을 달성하고, 다양한 생성 작업에서 동일한 크기의 다른 모델들을 능가합니다. 특히 GRIT은 생성 또는 임베딩 데이터만으로 훈련하는 것과 동등한 성능을 보이며, 성능 저하 없이 두 작업을 통합합니다. 또한, GRIT을 통한 통합은 장문 문서의 검색 증강 생성(RAG) 속도를 60% 이상 향상시킵니다. 모델, 코드 등은 공개적으로 제공됩니다.

시사점, 한계점

시사점:
생성 및 임베딩 작업을 모두 잘 수행하는 대규모 언어 모델을 효율적으로 훈련하는 새로운 방법(GRIT) 제시
MTEB 및 다양한 생성 작업에서 SOTA 성능 달성
생성 및 임베딩 작업 통합으로 RAG 속도 향상 (60% 이상)
모델, 코드 등의 공개를 통한 연구의 재현성 및 확장성 증대
한계점:
본 논문에서 제시된 GritLM의 성능 비교는 특정 모델들과의 비교에 국한됨. 더 광범위한 모델들과의 비교가 필요할 수 있음.
GRIT의 효과가 모든 유형의 생성 및 임베딩 작업에 대해 동일하게 적용될지는 추가 연구가 필요함.
8x7B 모델의 성능 향상이 7B 모델 대비 얼마나 효율적인지에 대한 분석 부족.
👍