Sign In

Ko-MuSR: A Multistep Soft Reasoning Benchmark for LLMs Capable of Understanding Korean

Created by
  • Haebom
Category
Empty

저자

Chanwoo Park, Suyoung Park, JiA Kang, Jongyeon Park, Sangho Kim, Hyunji M. Park, Sumin Bae, Mingyu Kang, Jaejin Lee

Ko-MuSR: 한국어 장문 서술 기반 다단계 연성 추론 벤치마크

개요

Ko-MuSR은 데이터 오염을 최소화하면서 한국어 장문 서술에 대한 다단계 연성 추론을 포괄적으로 평가하는 최초의 벤치마크입니다. MuSR을 기반으로 구축되었으며, 한국어 서술, 추론 체인, 논리적 일관성과 정답 가능성을 위해 인간 주석자가 검증한 객관식 질문을 특징으로 합니다.

시사점, 한계점

다국어 모델이 한국어 추론 작업에서도 한국어 특화 모델보다 우수한 성능을 보임. 이는 추론 능력의 교차 언어 일반화를 시사함.
소수 샷 예시, 추론 추적 및 작업별 힌트를 결합한 프롬프트 전략을 통해 정확도를 향상시켜 인간 수준의 성능에 근접함.
장문 추론 및 프롬프트 전략의 체계적인 평가를 가능하게 하여 한국어 NLP 발전에 기여함.
👍