Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

WinoWhat: A Parallel Corpus of Paraphrased WinoGrande Sentences with Common Sense Categorization

Created by
  • Haebom

저자

Ine Gevers, Victor De Marez, Luna De Bruyne, Walter Daelemans

개요

본 연구는 Winograd Schema Challenge (WSC)를 활용하여 대규모 언어 모델(LLM)의 상식 추론 능력을 평가하는 방법을 자세히 살펴봅니다. 다양한 크기의 생성 모델들을 널리 사용되는 WinoGrande 벤치마크를 통해 평가하고, WinoGrande 검증 세트의 각 인스턴스를 바꿔쓴 새로운 말뭉치인 WinoWhat을 공개합니다. 또한, 다섯 가지 상식 지식 범주에서 과제에 대한 성능을 평가하여 어떤 유형의 지식이 LLM에 더 어려운지에 대한 세분화된 통찰력을 제공합니다. 놀랍게도 모든 모델은 WinoWhat에서 성능이 현저히 저하되었는데, 이는 LLM 추론 능력이 WinoGrande에서 과대평가되었음을 시사합니다. 벤치마크 암기 효과 여부를 확인하기 위해 벤치마크 인스턴스를 LLM 학습 데이터와 일치시켜 두 개의 테스트 세트를 만들었습니다. 그 결과, WinoGrande에서 모델 성능에 대한 암기 효과는 최소한으로 나타났습니다.

시사점, 한계점

시사점: WinoGrande와 같은 벤치마크에서 LLM의 상식 추론 능력을 평가할 때 주의가 필요하며, 단순히 성능 수치만으로는 LLM의 진정한 이해력을 판단하기 어렵다는 것을 보여줍니다. WinoWhat과 같은 새로운 평가 방법을 통해 LLM의 취약점을 더 정확하게 파악할 수 있습니다. LLM의 상식 추론 능력에 대한 과대평가 가능성을 제기하고, 더욱 견고하고 엄격한 평가 방법의 필요성을 강조합니다.
한계점: 본 연구는 특정 벤치마크(WinoGrande)와 새로운 말뭉치(WinoWhat)에 국한되어 있으며, 다른 유형의 상식 추론 과제나 다른 LLM에 대한 일반화 가능성은 제한적일 수 있습니다. 암기 효과에 대한 분석은 특정 방식으로 수행되었으며, 다른 암기 방식의 영향을 고려하지 않았을 가능성이 있습니다. 다섯 가지 상식 지식 범주로의 세분화된 분석은 유용하지만, 더욱 다양하고 세밀한 범주화가 필요할 수 있습니다.
👍