LFQA-HP-1M: A Large-Scale Human Preference Dataset for Long-Form Question Answering

Created by

Haebom

저자

Rafid Ishrak Jahan, Fahmid Shahriar Iqbal, Sagnik Ray Choudhury

💡 개요

본 논문은 다중 문장으로 구성된 설명형 답변의 미묘한 평가가 요구되는 장문 질의응답(LFQA) 분야에서 인간의 판단을 제대로 반영하지 못하는 기존 평가 지표의 한계를 지적합니다. 이를 해결하기 위해 130만 건의 인간 쌍대 선호도 주석을 포함하는 대규모 LFQA-HP-1M 데이터셋을 제안하며, 답변 품질 평가를 위한 9가지 루브릭을 제시하여 간단한 선형 모델이 최신 LLM 평가 모델과 유사한 성능을 보임을 입증합니다.

🔑 시사점 및 한계

•

LFQA 분야에서 인간의 선호도를 반영하는 대규모 데이터셋(LFQA-HP-1M)을 구축하고 공개하여 관련 연구를 촉진합니다.

•

명확한 루브릭 기반 평가 프레임워크를 제시하여 LFQA 모델 평가의 투명성과 신뢰성을 높일 수 있는 가능성을 보여줍니다.

•

LLM 평가 모델의 과도한 긴 답변 선호 경향(verbosity bias), 위치 편향, 적대적 공격에 대한 취약성을 분석하고 이에 대한 개선의 필요성을 시사합니다.

PDF 보기

Made with Slashpage