LLM이 외부 정의를 실제로 통합하는지, 아니면 주로 매개변수 지식에 의존하는지 조사하기 위해, 여러 설명 벤치마크 데이터 세트와 다양한 레이블 정의 조건(전문가 큐레이션, LLM 생성, 변형, 교환된 정의 포함)에서 제어된 실험을 수행했습니다. 결과는 명시적인 레이블 정의가 정확성과 설명 가능성을 향상시킬 수 있지만, LLM의 작업 해결 프로세스에 통합되는 것이 보장되거나 일관적이지 않음을 보여줍니다. 이는 많은 경우 내재된 표현에 의존함을 시사합니다. 모델은 종종 내부 표현을 기본값으로 사용하며, 특히 일반적인 작업에서 그러합니다. 반면, 도메인별 작업은 명시적인 정의로부터 더 많은 이점을 얻습니다.