To pick up a draggable item, press the space bar.
While dragging, use the arrow keys to move the item.
Press space again to drop the item in its new position, or press escape to cancel.
CogniBench: A Legal-inspired Framework and Dataset for Assessing Cognitive Faithfulness of Large Language Models
Created by
Haebom
저자
Xiaqiang Tang, Jian Li, Keyu Hu, Du Nan, Xiaolong Li, Xi Zhang, Weigao Sun, Sihong Xie
개요
대규모 언어 모델(LLM)이 제공된 맥락에 의해 뒷받침되지 않는 주장인 '충실도 환각(Faithfulness hallucinations)' 문제를 다룬다. 기존 벤치마크는 출처 자료를 바꿔 쓰는 "사실적 진술"에 초점을 맞추고 주어진 맥락으로부터 추론을 포함하는 "인지적 진술"은 간과하여 인지적 진술의 환각 평가 및 탐지가 어려웠다. 본 논문은 법적 영역에서 증거를 평가하는 방식에서 영감을 얻어 인지적 진술의 다양한 충실도 수준을 평가하는 엄격한 프레임워크를 설계하고, 통찰력 있는 통계를 보여주는 CogniBench 데이터셋을 소개한다. 급속히 발전하는 LLM에 발맞춰 다양한 모델에 쉽게 확장되는 자동 주석 파이프라인을 개발하여 사실적 및 인지적 환각 모두에 대한 정확한 검출기를 훈련하는 데 도움이 되는 대규모 CogniBench-L 데이터셋을 생성한다. 모델과 데이터셋은 https://github.com/FUTUREEEEEE/CogniBench 에서 공개한다.