본 논문은 대형 언어 모델(LLM)의 말장난(pun) 이해 능력의 한계를 밝히는 연구입니다. 기존 말장난 벤치마크를 체계적으로 분석하고 개선하여, 미묘한 변화만으로도 LLM을 오류로 이끌 수 있음을 보여줍니다. LLM이 말장난을 감지하는 능력은 있지만, 인간과 같은 섬세한 이해 수준에는 미치지 못하며, 이는 LLM의 견고성(robustness)에 대한 문제점을 제기합니다. 본 연구는 개선된 말장난 감지 벤치마크, 최신 LLM에 대한 인간 평가, 그리고 모델이 말장난 처리에서 직면하는 견고성 문제 분석을 포함합니다.