Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Ensemble Learning for Large Language Models in Text and Code Generation: A Survey

Created by
  • Haebom

저자

Mari Ashiga, Wei Jie, Fan Wu, Vardan Voskanyan, Fateme Dinmohammadi, Paul Brookes, Jingzhi Gong, Zheng Wang

개요

본 논문은 생성형 사전 훈련 변환기(GPT) 기반 대규모 언어 모델(LLM)의 앙상블 기법을 검토한다. 개별 LLM은 불일치하는 출력을 생성하고 편향을 보이는 경우가 많아 다양한 언어 패턴을 제대로 나타내지 못하는 한계를 지닌다. 또한 많은 강력한 LLM은 폐쇄형 소스이기 때문에 데이터 프라이버시 문제로 인해 산업 응용이 제한된다. 본 논문은 텍스트 생성에서의 성공에 착안하여 코드 생성을 위한 LLM 앙상블 기법을 검토하고, 7가지 주요 방법(가중치 병합, 지식 융합, 전문가 혼합, 보상 앙상블, 출력 앙상블, 라우팅, 캐스케이딩)으로 분류하여 각 기법의 기능을 분석한다. 다양성 표현 향상, 출력 품질 향상, 응용 유연성 증대 등의 주요 장점을 강조하며, 실제 작업을 위한 모델 선택에 도움을 주고 다중 모달 LLM로 앙상블 전략을 확장하기 위한 기반을 마련한다.

시사점, 한계점

시사점:
LLM 앙상블 기법을 통한 다양성 표현 향상, 출력 품질 향상, 응용 유연성 증대 가능성 제시
7가지 주요 LLM 앙상블 방법의 특징과 장단점 분석을 통한 효과적인 모델 선택 기준 제공
다중 모달 LLM로의 앙상블 전략 확장 가능성 제시
한계점:
본 논문은 기존 연구에 대한 검토에 초점을 맞추고 있어, 새로운 앙상블 기법 제안이나 실험적 결과는 포함하지 않음.
각 앙상블 기법의 성능 비교 및 분석이 부족하여 실제 적용 시 최적 기법 선택에 대한 명확한 지침이 부족할 수 있음.
다중 모달 LLM에 대한 앙상블 전략 확장에 대한 구체적인 방안 제시 부족.
👍