본 논문은 BERT와 같은 대규모 언어 모델이 의미론적 과제에서 강력한 실험적 성능을 보이지만, 이것이 진정한 개념적 능력을 반영하는지 아니면 표면적인 통계적 연관성을 반영하는지 불분명하다는 점을 다룹니다. 저자는 분류학적, 구성론적, 기능적 관계에 걸쳐 개념 쌍의 내부 표현을 조사하여 BERT가 추상적 관계 스키마를 인코딩하는지 여부를 조사합니다. BERT의 관계 분류 성능과 [CLS] 토큰 임베딩의 표현 구조를 비교 분석합니다. 사전 훈련된 BERT는 높은 분류 정확도를 달성하여 잠재적인 관계 신호를 나타냅니다. 그러나 개념 쌍은 지도 학습 관계 분류 작업에 대한 미세 조정 후에만 고차원 임베딩 공간에서 관계 유형별로 구성됩니다. 이는 관계 스키마가 사전 훈련만으로는 나타나지 않지만 작업 스캐폴딩을 통해 유도될 수 있음을 시사합니다. 이러한 결과는 행동적 성능이 반드시 구조화된 개념적 이해를 의미하지는 않지만, 모델은 적절한 훈련을 통해 근거가 있는 관계적 추상화에 대한 유도적 편향을 얻을 수 있음을 보여줍니다.