Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HREF: Human Response-Guided Evaluation of Instruction Following in Language Models

Created by
  • Haebom
Category
Empty

저자

Xinxi Lyu, Yizhong Wang, Hannaneh Hajishirzi, Pradeep Dasigi

개요

본 논문은 대규모 언어 모델(LLM)의 지시사항 따르기 능력 평가에서 LLM을 판단자로 사용하는 기존 방식의 편향성 문제를 지적하고, 이를 해결하기 위해 인간이 작성한 응답을 활용한 새로운 평가 방법을 제시합니다. 다양한 자동 평가 방법을 실험하여 인간 작성 응답이 평가 신뢰도를 향상시키는 것을 확인하고(최대 3.2% 향상), 모델 생성 응답과는 다른 관점을 제공함을 발견했습니다. 이를 바탕으로 11가지 작업 분야에 걸쳐 4,258개의 샘플로 구성된 새로운 평가 벤치마크 HREF(Human Response-Guided Evaluation of Instruction Following)를 개발했습니다. HREF는 각 분야에 가장 신뢰할 수 있는 방법을 선택하는 복합 평가 설정을 사용하며, 개별 작업 성능을 강조하고 오염되지 않은 평가를 제공합니다. 또한 평가 집합 크기, 판정 모델, 기준 모델, 프롬프트 템플릿 등 HREF의 주요 설계 선택 사항의 영향을 연구하고, HREF의 비공개 평가 집합에 대한 LLM을 평가하는 실시간 순위표를 제공합니다.

시사점, 한계점

시사점:
LLM을 판단자로 사용하는 기존의 지시사항 따르기 능력 평가 방식의 한계를 극복하고, 인간 작성 응답을 활용하여 평가 신뢰도를 향상시키는 새로운 방법을 제시.
HREF라는 새로운 평가 벤치마크를 제공하여 LLM의 지시사항 따르기 능력을 더욱 정확하게 평가 가능.
개별 작업 성능을 강조하고 오염되지 않은 평가를 제공하여 LLM의 성능 비교를 더욱 정확하게 수행 가능.
실시간 순위표를 통해 LLM의 성능을 지속적으로 모니터링 가능.
한계점:
HREF의 성능 향상이 모든 유형의 지시사항 따르기 작업에 일반화될 수 있는지는 추가 연구가 필요.
인간이 작성한 응답의 품질과 다양성이 평가 결과에 영향을 미칠 수 있음.
HREF의 복합 평가 설정이 모든 상황에 최적의 방법이 아닐 수 있음.
비공개 평가 집합의 크기 및 구성에 대한 자세한 정보가 부족하여 일반화 가능성에 대한 제한이 있을 수 있음.
👍