A Matter of Interest: Understanding Interestingness of Math Problems in Humans and Language Models
Created by
Haebom
Category
Empty
저자
Shubhra Mishra, Yuka Machino, Gabriel Poesia, Albert Jiang, Joy Hsu, Adrian Weller, Challenger Mishra, David Broman, Joshua B. Tenenbaum, Mateja Jamnik, Cedegao E. Zhang, Katherine M. Collins
개요
본 논문은 수학적 흥미로움에 대한 인간과 LLM(Large Language Model)의 평가 간의 정렬을 조사한다. 연구는 LLM이 고급 연구 또는 교육에 활용됨에 따라, 그들의 판단이 인간의 판단과 얼마나 일치하는지를 이해하는 것이 중요하다고 강조한다. 크라우드소싱 플랫폼 참여자와 국제 수학 올림피아드 참가자를 대상으로 두 개의 경험적 연구를 수행하여 수학적 흥미로움과 난이도에 대한 인간과 LLM의 평가를 비교 분석했다.
시사점, 한계점
•
대부분의 LLM은 인간의 흥미로움 개념에 대체로 동의하지만, 인간의 판단에서 관찰되는 분포를 제대로 포착하지 못한다.
•
대부분의 LLM은 인간이 특정 수학 문제를 흥미롭게 여기는 이유와 어느 정도 일치하지만, 인간이 선택한 흥미로움에 대한 근거와 약한 상관관계를 보인다.
•
현재 LLM은 수학적 AI 파트너십에서 인간의 흥미로움 판단을 포착하는 데 있어 잠재력과 한계를 동시에 보인다.