Sign In

DecompSR: A dataset for decomposed analyses of compositional multihop spatial reasoning

Created by
  • Haebom
Category
Empty

저자

Lachlan McPheat, Navdeep Kaur, Robert Blackwell, Alessandra Russo, Anthony G. Cohn, Pranava Madhyastha

개요

DecompSR은 500만 개 이상의 데이터 포인트를 포함하는 대규모 벤치마크 데이터셋으로, 분해된 공간 추론 능력을 분석하기 위해 설계되었습니다. 이 데이터셋은 생산성(추론 깊이), 대체 가능성(개체 및 언어적 가변성), 과잉 일반화(입력 순서, 방해 요소) 및 체계성(새로운 언어 요소)과 같은 다양한 측면의 구성성을 독립적으로 변화시킬 수 있도록 생성되었습니다. DecompSR은 구조적으로 구축되어 정확성이 보장되며, 기호 해결사를 사용하여 독립적으로 검증되었습니다. 대규모 언어 모델(LLM)을 대상으로 광범위한 벤치마킹을 수행한 결과, LLM이 공간 추론 작업에서 생산적이고 체계적인 일반화에 어려움을 겪는 반면, 언어적 변동에 더 강하다는 것을 보여주었습니다.

시사점, 한계점

시사점:
LLM의 구성적 공간 추론 능력에 대한 정교한 평가를 위한 벤치마크 데이터셋 제공.
생산성, 대체 가능성, 과잉 일반화, 체계성과 같은 구성성의 다양한 측면을 독립적으로 제어하여 LLM의 강점과 약점을 세분화하여 분석 가능.
LLM이 공간 추론 작업에서 생산적 및 체계적 일반화에 어려움을 겪는다는 것을 발견.
한계점:
데이터셋의 생성 방식과 사용된 특정 공간 추론 작업에 한정된 평가.
다른 종류의 추론 능력이나 데이터셋과의 비교 부족.
모델의 개선 방향을 제시하지만, 해결책에 대한 구체적인 연구는 포함되지 않음.
👍