본 논문은 단문 텍스트 데이터 군집화에서 정보성과 해석성 간의 균형을 맞추는 문제를 다룹니다. 기존 평가 지표들이 이러한 절충점을 간과하는 점에 착안하여, 의사소통 효율성이라는 언어학적 원리를 바탕으로 정보성과 인지적 단순성 간의 절충을 정량화하여 최적의 군집 수를 조사합니다. 대규모 언어 모델(LLM)을 사용하여 군집 이름을 생성하고, 의미 밀도, 정보 이론 및 군집 정확도를 통해 그 효과를 평가합니다. LLM에 의해 생성된 임베딩에 대한 Gaussian Mixture Model (GMM) 군집화는 무작위 할당과 비교하여 의미 밀도를 높이고 유사한 바이오들을 효과적으로 그룹화하지만, 군집 수가 증가함에 따라 군집 이름을 기반으로 바이오를 정확하게 할당하는 생성형 LLM의 능력으로 측정했을 때 해석성이 감소합니다. 로지스틱 회귀 분석을 통해 분류 정확도는 바이오와 할당된 군집 이름 간의 의미적 유사성과 대안과의 구별에 따라 달라짐을 확인합니다. 결과적으로, 군집이 구별되면서 해석 가능한 "골디락스 존"을 밝히고, 어휘 범주화의 언어적 효율성과 유사하게 16-22개의 최적 군집 범위를 확인합니다. 이러한 통찰력은 이론적 모델과 실제 응용 모두에 정보를 제공하여 향후 연구에서 군집 해석성과 유용성을 최적화하는 데 도움을 줍니다.