대규모 언어 모델(LLM)의 급격한 발전에도 불구하고, 진정한 의미론적 이해 능력을 평가하는 것은 여전히 어려운 과제입니다. 기존의 의미론적 이해 평가 벤치마크는 구축에 많은 자원이 필요하고 고자원 언어에 국한되는 한계가 있습니다. 본 논문은 사전 정의된 의미 정보와 문장 인코더만을 활용하여 LLM의 의미론적 이해 능력을 자동으로 평가하는 보편적인 프레임워크인 SemBench를 제안합니다. SemBench는 맞춤형 예시 문장 없이도 확장 가능하고 언어 독립적인 평가를 가능하게 하여, 다양한 언어와 LLM에 걸쳐 기존 벤치마크와 높은 상관관계를 보이는 강력한 평가 결과를 도출합니다.