Determine-Then-Ensemble: Necessity of Top-k Union for Large Language Model Ensembling

작성자

Haebom

카테고리

비어 있음

저자

Yuxuan Yao, Han Wu, Mingyang Liu, Sichun Luo, Xiongwei Han, Jie Liu, Zhijiang Guo, Linqi Song

개요

본 논문은 다양한 작업에서 강점과 약점을 보이는 대규모 언어 모델(LLM)의 앙상블을 통해 상호 보완적인 장점을 활용하는 연구에 초점을 맞추고 있습니다. 기존의 LLM 앙상블 방법들은 모델의 호환성을 간과하고 전체 어휘에 걸쳐 확률 정렬의 비효율성에 어려움을 겪는다는 점을 지적합니다. 본 연구는 모델 성능, 어휘 크기, 응답 스타일을 핵심 요소로 규명하여 앙상블 성능에 영향을 미치는 요인들을 실증적으로 조사하고, 효과적인 앙상블을 위해서는 모델 간의 호환성이 필수적임을 밝힙니다. 이 분석을 바탕으로 호환 가능한 모델을 식별하는 간단하면서도 효과적인 모델 선택 전략을 개발하고, 각 모델의 상위 k개 토큰의 합집합에 초점을 맞춤으로써 전체 어휘 정렬의 필요성을 제거하고 계산 오버헤드를 줄이는 새로운 접근 방식인 \textsc{Uni}on \textsc{T}op-$k$ \textsc{E}nsembling (\textsc{UniTE})을 제시합니다. 여러 벤치마크에 대한 광범위한 평가를 통해 \textsc{UniTE}가 기존 방법에 비해 성능을 크게 향상시키고 더 효율적인 LLM 앙상블 프레임워크를 제공함을 보여줍니다.