Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Online Mixture of Experts: No-Regret Learning for Optimal Collective Decision-Making

Created by
  • Haebom
Category
Empty

저자

Larkin Liu, Jalal Etesami

개요

온라인 전문가 혼합(OMoE)이라고 하는 전문가 안내 밴딧 학습의 사용을 탐구합니다. 문맥이 주어지면, 후보 전문가 위원회가 집계 정확도 측면에서 최적의 결과를 얻기 위해 출력을 집계하는 방법을 결정해야 합니다. 두 가지 알고리즘을 제안합니다. 첫 번째 알고리즘은 UCB 기반의 연속 제거와 집계 투표를 결합하여 하위 최적 탐색 동작을 효율적으로 가지치기합니다. 두 번째 알고리즘은 온라인 가중 다수 투표 메커니즘을 사용하여 각 전문가의 예측 능력에 비례하여 해당 투표력을 활용합니다. 밴딧 환경에서 이상적인 상황에서의 후회 속성에 대한 이론적 보장을 도출하고, 이에 따라 경험적 결과를 제공합니다. 응용 분야에 대한 현대적인 연구로서, 이러한 방법은 일련의 전문가 대형 언어 모델(LLM)의 온라인 미세 조정에 적용됩니다. 여기서 각 응답 후에 생성 LLM은 전문가 집합을 동적으로 재가중하거나 가장 정확한 응답을 생성하기 위해 최적의 전문가 위원회를 선택합니다. 우리의 결과는 여러 전문가를 결합하여 집계 모델 전체의 성능을 향상시키는 새로운 방법론과 무후회 보장을 제시합니다.

시사점, 한계점

온라인 전문가 혼합(OMoE) 문제를 해결하기 위한 두 가지 알고리즘(집계 투표와 UCB 결합, 온라인 가중 다수 투표) 제안.
밴딧 환경에서의 후회 속성에 대한 이론적 보장 제공.
전문가 LLM의 온라인 미세 조정에 적용하여 새로운 방법론과 무후회 보장 제시.
이론적 보장은 이상적인 상황에서만 유효할 수 있으며, 실제 응용에서는 제한이 있을 수 있음.
특정 상황에서의 성능은 전문가의 수, 문맥의 복잡성 등 다양한 요인에 따라 달라질 수 있음.
👍