Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Assessing the Capabilities of LLMs in Humor:A Multi-dimensional Analysis of Oogiri Generation and Evaluation

Created by
  • Haebom
Category
Empty

저자

Ritsu Sakabe, Hwichan Kim, Tosho Hirasawa, Mamoru Komachi

개요

본 논문은 고급 대화 시스템과 같은 매력적인 자연어 처리(NLP) 애플리케이션 개발을 위한 전선으로서의 계산 유머를 연구합니다. 기존 연구가 대규모 언어 모델(LLM)의 유머 능력을 벤치마킹했지만, 단순한 '웃김' 여부와 같은 단일 차원 평가에 의존했다는 점을 지적합니다. 본 논문은 유머에 대한 다차원적 이해의 필요성을 강조하며, 일본 즉흥 코미디 게임인 오오기리를 통해 LLM을 체계적으로 평가하여 이러한 격차를 해결합니다. 새로운 소스에서 데이터를 수집하여 기존 오오기리 데이터 세트를 확장하고, LLM이 생성한 오오기리 응답으로 컬렉션을 보강합니다. 그 후, 참신함, 명확성, 관련성, 지성, 공감, 전반적인 재미의 6가지 차원에 걸쳐 5점 절대 평점으로 수동 주석을 답니다. 이 데이터 세트를 사용하여 LLM이 창의적인 오오기리 응답을 생성하는 능력과 6차원 평가를 사용하여 응답의 재미를 평가하는 능력을 평가합니다.

시사점, 한계점

LLM은 인간의 낮은 수준에서 중간 수준 사이의 응답을 생성할 수 있지만, 공감 능력이 현저히 부족합니다.
공감 부족은 LLM이 인간의 유머 평가를 재현하는 데 실패하는 이유를 설명합니다.
인간과 모델 평가 데이터의 상관 관계 분석을 통해 LLM은 참신함을, 인간은 공감을 우선시하는 평가 기준의 근본적인 차이를 발견했습니다.
연구에서는 주석 처리된 코퍼스를 공개하여, 보다 감성적으로 지능적이고 정교한 대화형 에이전트 개발에 기여하고자 합니다.
👍