Sign In

No-Human in the Loop: Agentic Evaluation at Scale for Recommendation

Created by
  • Haebom
Category
Empty

저자

Tao Zhang, Kehui Yao, Luyi Ma, Jiao Chen, Reza Yousefi Maragheh, Kai Zhao, Jianpeng Xu, Evren Korpeoglu, Sushant Kumar, Kannan Achan

개요

본 논문은 대규모 언어 모델(LLM)을 평가자로 활용하는 연구의 일환으로, 신뢰할 수 있고 확장 가능한 평가 파이프라인 구축을 위해 LLM의 성능을 비교 분석하는 ScalingEval 벤치마크 연구를 제시한다. GPT, Gemini, Claude, Llama 등 36개의 LLM을 다양한 제품 카테고리에 걸쳐 합의 기반 평가 프로토콜을 사용하여 비교했으며, 다중 에이전트 프레임워크를 통해 패턴 감사와 문제 코드를 집계하여 사람이 직접 주석을 달지 않고도 LLM 평가자를 재현 가능하게 비교할 수 있도록 했다. 대규모 보완 상품 추천에 적용한 결과, Anthropic Claude 3.5 Sonnet이 가장 높은 결정 신뢰도를 보였고, Gemini 1.5 Pro가 전반적인 성능에서 가장 우수했으며, GPT-4o가 가장 유리한 지연 시간-정확도-비용 균형을 제공했고, GPT-OSS 20B가 오픈 소스 모델 중 선두를 차지했다.

시사점, 한계점

시사점:
Anthropic Claude 3.5 Sonnet의 높은 결정 신뢰도 확인.
Gemini 1.5 Pro의 전반적인 성능 우수성 입증.
GPT-4o의 효과적인 지연 시간-정확도-비용 균형 제시.
오픈 소스 모델 중 GPT-OSS 20B의 선도적 역할 확인.
구조화된 도메인(전자, 스포츠)과 라이프스타일 카테고리(의류, 음식) 간의 평가 일치도 차이 관찰.
LLM 평가를 위한 재현 가능한 벤치마크 및 평가 프로토콜 확립.
확장성, 신뢰성 및 모델 간 트레이드 오프에 대한 실질적인 지침 제공.
한계점:
라이프스타일 카테고리에서 평가자 간의 지속적인 의견 불일치 존재.
제공된 정보 내에서 한계점을 명확히 파악하기 어려움. (논문의 구체적인 한계점은 논문을 직접 확인해야 함.)
👍