본 논문은 고급 대화 시스템과 같은 매력적인 자연어 처리(NLP) 애플리케이션 개발을 위한 전선으로서의 계산 유머를 연구합니다. 기존 연구가 대규모 언어 모델(LLM)의 유머 능력을 벤치마킹했지만, 단순한 '웃김' 여부와 같은 단일 차원 평가에 의존했다는 점을 지적합니다. 본 논문은 유머에 대한 다차원적 이해의 필요성을 강조하며, 일본 즉흥 코미디 게임인 오오기리를 통해 LLM을 체계적으로 평가하여 이러한 격차를 해결합니다. 새로운 소스에서 데이터를 수집하여 기존 오오기리 데이터 세트를 확장하고, LLM이 생성한 오오기리 응답으로 컬렉션을 보강합니다. 그 후, 참신함, 명확성, 관련성, 지성, 공감, 전반적인 재미의 6가지 차원에 걸쳐 5점 절대 평점으로 수동 주석을 답니다. 이 데이터 세트를 사용하여 LLM이 창의적인 오오기리 응답을 생성하는 능력과 6차원 평가를 사용하여 응답의 재미를 평가하는 능력을 평가합니다.