Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

BIS Reasoning 1.0: The First Large-Scale Japanese Benchmark for Belief-Inconsistent Syllogistic Reasoning

Created by
  • Haebom

저자

Ha-Thanh Nguyen, Chaoran Liu, Qianying Liu, Hideyuki Tachibana, Su Myat Noe, Yusuke Miyao, Koichi Takeda, Sadao Kurohashi

개요

BIS Reasoning 1.0은 대규모 일본어 데이터셋으로, 대규모 언어 모델(LLM)에서의 믿음과 모순되는 추론을 평가하도록 명시적으로 설계되었습니다. 기존의 NeuBAROCO나 JFLD와 달리 일반적 또는 믿음에 부합하는 추론에 초점을 맞추는 대신, 논리적으로 타당하지만 믿음과 모순되는 삼단논법을 도입하여 인간 중심의 말뭉치로 훈련된 LLM의 추론 편향을 밝힙니다. GPT 모델, Claude 모델, 그리고 주요 일본어 LLM을 포함한 최첨단 모델들을 벤치마킹한 결과, 성능에 상당한 차이가 있음을 보여주었으며, GPT-4o는 79.54%의 정확도를 달성했습니다. 논리적으로 타당하지만 믿음과 상충하는 입력을 처리할 때 현재 LLM의 중요한 약점을 확인했습니다.

시사점, 한계점

시사점: LLM의 추론 편향을 밝히는 새로운 데이터셋을 제시하여, 특히 믿음과 모순되는 논리적 추론 능력에 대한 평가를 가능하게 함. 법률, 의료, 과학 문헌 등 고위험 영역에서 LLM 배포 시, 진실이 직관적인 믿음을 압도해야 안전성과 무결성을 보장할 수 있다는 점을 시사. 현존 LLM의 추론 능력의 한계를 명확히 제시.
한계점: 데이터셋이 일본어로 구성되어 있어 다른 언어로의 일반화 가능성에 대한 추가 연구 필요. 현재 벤치마킹된 모델의 성능만으로 LLM의 추론 능력 전반을 일반화하는 데는 한계가 있음. 더욱 다양하고 복잡한 추론 문제를 포함하도록 데이터셋을 확장할 필요가 있음.
👍