Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SKA-Bench: A Fine-Grained Benchmark for Evaluating Structured Knowledge Understanding of LLMs

Created by
  • Haebom

저자

Zhiqiang Liu, Enpei Niu, Yin Hua, Mengshu Sun, Lei Liang, Huajun Chen, Wen Zhang

개요

본 논문은 대규모 언어 모델(LLMs)의 구조화된 지식(SK) 이해 능력을 평가하기 위한 새로운 벤치마크인 SKA-Bench를 제안합니다. SKA-Bench는 지식 그래프(KG), 표, KG+텍스트, 표+텍스트 등 네 가지 유형의 SK를 포함하며, 질문, 정답, 긍정적 지식 단위, 부정확한 지식 단위로 구성된 인스턴스를 세 단계 파이프라인을 통해 생성합니다. LLM의 SK 이해 능력을 세밀하게 평가하기 위해 잡음에 대한 강건성, 순서에 대한 무관심성, 정보 통합 능력, 부정적인 정보 거부 능력 등 네 가지 기본적인 능력 테스트베드를 확장하여 사용합니다. 8개의 대표적인 LLM을 대상으로 실험한 결과, 기존 LLM은 구조화된 지식 이해에 여전히 상당한 어려움을 겪고 있으며, 성능은 잡음의 양, 지식 단위의 순서, 환각 현상 등의 요인에 영향을 받는다는 것을 보여줍니다. 데이터셋과 코드는 깃허브에서 공개합니다.

시사점, 한계점

시사점:
LLM의 구조화된 지식 이해 능력에 대한 종합적이고 엄격한 평가 벤치마크를 제공합니다.
다양한 유형의 구조화된 지식을 포괄적으로 다루어 LLM의 약점을 정확하게 진단할 수 있습니다.
LLM의 구조화된 지식 이해 능력에 대한 세분화된 분석을 가능하게 합니다.
기존 LLM의 구조화된 지식 이해 능력의 한계를 명확히 제시합니다.
한계점:
현재 벤치마크에 포함된 LLM의 종류가 제한적일 수 있습니다.
SKA-Bench의 성능 평가 지표 및 측정 방법에 대한 추가적인 연구가 필요할 수 있습니다.
특정 유형의 구조화된 지식에 대한 편향이 존재할 가능성이 있습니다.
👍