Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

BIS Reasoning 1.0: The First Large-Scale Japanese Benchmark for Belief-Inconsistent Syllogistic Reasoning

Created by
  • Haebom

저자

Ha-Thanh Nguyen, Chaoran Liu, Qianying Liu, Hideyuki Tachibana, Su Myat Noe, Yusuke Miyao, Koichi Takeda, Sadao Kurohashi

개요

BIS Reasoning 1.0은 대규모 일본어 데이터셋으로, 대형 언어 모델(LLM)의 믿음과 일치하지 않는 추론 능력을 평가하기 위해 명시적으로 설계되었습니다. 기존의 NeuBAROCO나 JFLD와 달리 일반적인 추론이나 믿음과 일치하는 추론에 초점을 맞추지 않고, 논리적으로 타당하지만 믿음과 일치하지 않는 삼단논법을 도입하여 사람의 의도에 맞춰 학습된 LLM의 추론 편향을 밝힙니다. GPT 모델, Claude 모델, 그리고 주요 일본어 LLM을 포함한 최첨단 모델들을 벤치마킹한 결과, 성능에 상당한 차이가 있으며 GPT-4o는 79.54%의 정확도를 달성했습니다. 논리적으로 타당하지만 믿음과 상충하는 입력을 처리할 때 현재 LLM의 중요한 약점을 확인했습니다.

시사점, 한계점

시사점:
LLM의 믿음과 일치하지 않는 추론 능력 평가를 위한 새로운 대규모 일본어 데이터셋(BIS Reasoning 1.0) 제시.
LLM의 추론 편향 및 약점을 밝히고, 고위험 영역(법률, 의료, 과학 문헌 등)에서의 LLM 배포에 대한 시사점 제시.
LLM의 성능 비교를 통해 모델 간의 성능 차이를 확인하고, 향후 모델 개발 방향 제시.
한계점:
데이터셋이 일본어로 제한되어 있어 다른 언어에 대한 일반화 가능성 제한.
현재 벤치마킹된 모델들의 성능만을 비교하여, 다른 유형의 LLM 또는 추론 문제에 대한 일반화에는 한계가 있을 수 있음.
삼단논법에만 국한된 평가로, 더욱 복잡하고 다양한 추론 유형에 대한 평가가 필요.
👍