Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CogniBench: A Legal-inspired Framework and Dataset for Assessing Cognitive Faithfulness of Large Language Models

Created by
  • Haebom

저자

Xiaqiang Tang, Jian Li, Keyu Hu, Du Nan, Xiaolong Li, Xi Zhang, Weigao Sun, Sihong Xie

개요

본 논문은 대규모 언어 모델(LLM)이 생성하는, 제공된 맥락에 의해 뒷받침되지 않는 주장인 '충실도 환각(Faithfulness hallucination)' 문제를 다룹니다. 기존 벤치마크는 단순히 원본 자료를 바꿔 말하는 '사실적 진술'만 포함하고, 주어진 맥락으로부터 추론하는 '인지적 진술'을 구분하지 않아 인지적 진술의 일관성 평가 및 최적화가 어렵다는 점을 지적합니다. 논문에서는 입법 영역에서 증거를 평가하는 방식에서 영감을 얻어, 인지적 진술의 다양한 수준의 충실도를 평가하는 엄격한 프레임워크를 설계하고, 통찰력 있는 통계를 보여주는 벤치마크 데이터셋을 만듭니다. 또한, 다양한 LLM에 대해 자동으로 더 큰 벤치마크를 생성하는 주석 파이프라인을 설계하고, 그 결과로 생성된 대규모 CogniBench-L 데이터셋을 정확한 인지적 환각 탐지 모델을 훈련하는 데 사용할 수 있도록 공개합니다.

시사점, 한계점

시사점:
LLM의 인지적 진술의 충실도를 평가하기 위한 엄격한 프레임워크 제시
인지적 환각 탐지 모델 훈련을 위한 대규모 벤치마크 데이터셋(CogniBench-L) 제공
LLM의 충실도 환각 문제 해결에 기여할 수 있는 새로운 접근법 제시
자동화된 주석 파이프라인을 통해 벤치마크 데이터셋 확장 가능성 제시
한계점:
입법 영역에서의 증거 평가 방식을 LLM의 인지적 진술 평가에 적용하는 데 대한 일반화 가능성에 대한 추가적인 연구 필요
CogniBench-L 데이터셋의 범용성 및 다양한 LLM에 대한 적용 가능성에 대한 추가적인 검증 필요
자동화된 주석 파이프라인의 정확도 및 효율성에 대한 추가적인 평가 필요
👍