본 논문은 이질성(heterophily)을 보이는 텍스트 속성 그래프(TAGs)에 대한 연구가 부족함을 지적하며, 다양한 도메인의 실제 데이터로 구성된 새로운 벤치마크인 HeTGB를 제시합니다. HeTGB는 노드에 풍부한 텍스트 설명이 포함된 다섯 개의 실제 이질성 그래프 데이터셋으로 구성되며, GNN, 사전 훈련된 언어 모델(PLM), 그리고 공동 훈련 방법론의 노드 분류 성능을 체계적으로 평가할 수 있도록 합니다. 실험을 통해 이질성 그래프에서 텍스트 속성의 유용성을 보여주고, 기존 모델의 한계와 이질성 TAGs가 제기하는 과제를 분석하며, 그래프 구조와 텍스트 속성 간의 상호 작용에 대한 통찰력을 제공합니다. HeTGB는 공개적으로 배포되어 추가 연구를 촉진합니다.