Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

IRT-Router: Effective and Interpretable Multi-LLM Routing via Item Response Theory

Created by
  • Haebom

저자

Wei Song, Zhenya Huang, Cheng Cheng, Weibo Gao, Bihan Xu, GuanHao Zhao, Fei Wang, Runze Wu

개요

본 논문은 다양한 자연어 처리 작업에서 뛰어난 성능을 보이는 대규모 언어 모델(LLM)의 성능과 비용 간의 상충 관계를 해결하기 위해 IRT-Router라는 다중 LLM 라우팅 프레임워크를 제안합니다. IRT(항목 반응 이론)에 기반하여 LLM의 능력과 사용자 질의 속성 간의 관계를 명시적으로 모델링함으로써 응답 성능을 정확하게 예측하고 LLM의 능력과 질의의 난이도와 같은 해석 가능한 통찰력을 제공합니다. 또한, 의미적 유사성에 기반한 온라인 질의 워밍업 기법을 설계하여 IRT-Router의 온라인 일반화 능력을 향상시켰습니다. 20개의 LLM과 12개의 데이터셋에 대한 광범위한 실험을 통해 IRT-Router가 효율성과 해석 가능성 측면에서 대부분의 기준 방법보다 우수한 성능을 보임을 입증하였고, 특히 콜드 스타트 시나리오에서 우수한 성능을 통해 실제 응용 프로그램에서의 신뢰성과 실용성을 확인했습니다. 소스 코드는 GitHub에서 공개됩니다.

시사점, 한계점

시사점:
LLM의 성능과 비용 간의 절충 문제를 효과적으로 해결하는 새로운 프레임워크 제시.
IRT 기반 모델링을 통해 LLM의 능력과 질의 난이도에 대한 해석 가능한 통찰력 제공.
온라인 질의 워밍업 기법을 통해 콜드 스타트 시나리오에서의 성능 향상.
다양한 LLM과 데이터셋에 대한 실험을 통해 우수한 성능 검증.
오픈소스 코드 공개를 통한 접근성 향상.
한계점:
제안된 모델의 일반화 성능에 대한 추가적인 검증 필요.
다양한 유형의 질의에 대한 로버스트성 평가 필요.
실제 서비스 환경에서의 확장성 및 안정성에 대한 추가적인 연구 필요.
IRT 모델의 가정에 대한 민감도 분석 필요.
👍