Which LLMs Get the Joke? Probing Non-STEM Reasoning Abilities with HumorBench

작성자

Haebom

카테고리

Empty

저자

Reuben Narad, Siddharth Suresh, Jiayi Chen, Pine S. L. Dysart-Bricken, Bob Mankoff, Robert Nowak, Jifan Zhang, Lalit Jain

개요

HumorBench는 대규모 언어 모델(LLM)의 만화 캡션에서 정교한 유머에 대한 추론 및 설명 능력을 평가하기 위해 설계된 벤치마크입니다. 수학 및 과학 분야의 기존 벤치마크에서 추론 모델의 성능이 포화됨에 따라 STEM 분야를 넘어선 모델 지능의 새로운 평가가 필수적입니다. 유머 이해에는 만화/캡션과 외부 문화적 참조, 말장난 및 기타 메커니즘 간의 연결을 식별하는 추론이 근본적으로 포함됩니다. HumorBench는 뉴요커 캡션 콘테스트와 Cartoonstock.com에서 약 300개의 고유한 만화-캡션 쌍을 포함하며, 전문가가 주석을 단 평가 기준을 통해 필수적인 유머 요소를 식별합니다. LLM은 유머에 대한 설명과 유머 요소 식별 능력을 기반으로 평가됩니다. 이 작업에서 좋은 성능을 내려면 모델은 개념 간의 연관성에 대한 가설을 형성하고 검증해야 하며, 가장 그럴듯한 설명에 도달하기 위해 초기 해석에서 되돌아갈 수도 있습니다. 최신 SOTA 모델에 대한 광범위한 벤치마킹을 통해 세 가지 주요 통찰력을 얻었습니다. (1) STEM 추론에 대한 LLM의 발전은 유머 이해로 효과적으로 전이됩니다. (2) STEM 추론 데이터로만 학습된 모델도 HumorBench에서 우수한 성능을 보이며 추론 능력의 강력한 전이성을 보여줍니다. (3) 추론 토큰 예산을 늘리는 테스트 시간 확장은 유머 추론에서 서로 다른 모델에 따라 혼합된 결과를 제공합니다.

시사점, 한계점

•

시사점:

◦

STEM 추론 능력이 유머 이해와 같은 다른 영역으로 전이될 수 있음을 보여줍니다.

◦

LLM의 추론 능력을 평가하는 새로운 벤치마크를 제공합니다.

◦

테스트 시간 확장 전략이 모델 성능에 미치는 영향을 분석하여 모델 개선에 대한 통찰력을 제공합니다.

•

한계점:

◦

데이터셋의 크기(약 300개의 쌍)가 상대적으로 작을 수 있습니다.

◦

뉴요커 캡션 콘테스트와 Cartoonstock.com의 데이터는 특정 문화적 배경을 반영할 수 있으므로 일반화 가능성에 한계가 있을 수 있습니다.

◦

테스트 시간 확장의 효과가 모델에 따라 다르다는 점은 추가적인 연구가 필요함을 시사합니다.

PDF 보기

Made with Slashpage