Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Revisiting NLI: Towards Cost-Effective and Human-Aligned Metrics for Evaluating LLMs in Question Answering

Created by
  • Haebom
Category
Empty

저자

Sai Shridhar Balamurali, Lu Cheng

개요

최첨단 대규모 언어 모델(LLM)의 답변 평가가 어렵습니다. 어휘적 메트릭은 의미적 미묘함을 놓치고, "LLM-as-Judge" 채점은 계산 비용이 많이 듭니다. 본 연구에서는 간단한 어휘 일치 플래그로 보강된 기성 자연어 추론(NLI) 채점이라는 가벼운 대안을 재평가하여, 수십 년 된 이 기술이 장문 QA에서 GPT-4o의 정확도(89.9%)와 일치하면서, 훨씬 적은 수의 매개변수를 필요로 함을 발견했습니다. 이러한 메트릭의 인간 정렬을 엄격하게 테스트하기 위해, 5개의 QA 데이터 세트와 5개의 후보 LLM을 포함하는 새로운 3000개 샘플의 인간 주석 처리된 벤치마크인 DIVER-QA를 도입했습니다. 연구 결과는 저렴한 NLI 기반 평가가 여전히 경쟁력이 있으며, 향후 메트릭 연구를 위한 공개 리소스로 DIVER-QA를 제공함을 보여줍니다.

시사점, 한계점

시사점:
NLI 기반 평가는 GPT-4o와 유사한 정확도를 달성하며 계산 비용이 저렴합니다.
DIVER-QA 벤치마크는 메트릭 연구를 위한 새로운 공개 리소스를 제공합니다.
한계점:
논문의 구체적인 한계점은 명시되어 있지 않음. (논문 내용 요약에 포함되지 않음)
👍