Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Two Heads are Better than One: Distilling Large Language Model Features Into Small Models with Feature Decomposition and Mixture

Created by
  • Haebom
Category
Empty

저자

Tianhao Fu, Xinxin Xu, Weichen Xu, Jue Chen, Ruilong Ren, Bowen Deng, Xinyu Zhao, Jian Cao, Xixin Cao

개요

강화 학습(RL)을 활용한 시장 조성(MM)은 금융 거래 분야에서 주목받고 있으며, 대규모 언어 모델(LLM)의 발전과 함께 금융 분야에 LLM을 적용하려는 시도가 늘어나고 있습니다. LLM을 에이전트로 직접 적용하는 방법은 상당한 성능을 보이지만, 추론 속도가 느리다는 단점이 있습니다. 본 논문은 이러한 문제점을 해결하기 위해 LLM 증류(distillation)를 시장 조성 작업에 적용하는 것을 연구합니다. LLM의 특징 메커니즘을 연구하기 위해 정규화된 형광 프로브(normalized fluorescent probe)를 제안하고, 이를 통해 얻은 관찰을 바탕으로 Cooperative Market Making (CMM)이라는 새로운 프레임워크를 제안합니다. CMM은 LLM 특징을 계층, 작업, 데이터의 세 가지 직교 차원으로 분리하고, 다양한 학생 모델들이 각기 다른 차원에 따라 간단한 LLM 특징을 협력적으로 학습하도록 합니다. 각 모델은 지식 증류를 달성하기 위해 뚜렷한 특징을 담당합니다. 또한 CMM은 커널 함수가 생성한 공통 특징 공간에서 다른 모델의 기여도를 조사하여 학생 모델의 출력을 통합하기 위해 H{a}jek-MoE를 도입합니다. 실제 시장 데이터셋을 사용한 광범위한 실험을 통해 CMM이 현재 증류 방법과 RL 기반 시장 조성 전략보다 우수함을 입증했습니다.

시사점, 한계점

시사점:
LLM 기반 시장 조성에서 증류 기법의 유망함 제시
CMM 프레임워크를 통해 LLM 특징을 분해하고 협력 학습을 가능하게 함
H{a}jek-MoE를 활용하여 학생 모델의 출력을 효과적으로 통합
실제 시장 데이터셋을 사용한 광범위한 실험을 통해 CMM의 우수성 입증
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음. (논문 요약에 한계점에 대한 직접적인 언급이 없음)
👍