Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?
Created by
Haebom
Category
Empty
저자
Giacomo Camposampiero, Michael Hersche, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi
개요
본 논문은 OpenAI의 o3-mini와 DeepSeek R1 두 가지 최첨단 대규모 추론 모델(LRM)을 Raven의 진보적 행렬을 기반으로 한 정립된 비언어적 인간 IQ 테스트에 초점을 맞춰 유추 추론에 대해 처음으로 평가한 연구 결과를 제시합니다. I-RAVEN 데이터셋과 더 어려운 확장판인 I-RAVEN-X를 사용하여 벤치마킹을 수행했습니다. I-RAVEN-X는 더 긴 추론 규칙과 속성 값 범위로 일반화하는 능력을 테스트합니다. 비언어적 유추 추론 테스트에서 시각적 불확실성의 영향을 평가하기 위해, 완벽한 지각을 가정하는 I-RAVEN-X 데이터셋을 확장했습니다. 이 불완전한 시각적 지각을 시뮬레이션하기 위해 두 가지 전략을 채택했습니다. 1) 무작위로 샘플링된, 퍼즐의 정답 예측에 기여하지 않는 혼란스러운 속성을 도입하고, 2) 입력 속성 값의 분포를 부드럽게 했습니다. 원본 I-RAVEN에서 86.6%였던 OpenAI의 o3-mini 작업 정확도는 더 어려운 I-RAVEN-X(입력 길이와 범위를 늘리고 지각적 불확실성을 에뮬레이션함)에서는 17.0%로 급감하여 무작위 확률에 근접했습니다. 이 감소는 추론 토큰을 3.4배 더 사용했음에도 발생했습니다. DeepSeek R1에서도 유사한 경향이 관찰되었습니다(80.6%에서 23.2%로 감소). 반면, I-RAVEN에서 최첨단 성능을 달성하는 신경 기호 확률적 귀납적 모델인 ARLC는 이러한 모든 분포 외 테스트에서 강력하게 추론할 수 있으며, 98.6%에서 88.0%로 약간 감소했을 뿐 강력한 정확도를 유지했습니다. 코드는 https://github.com/IBM/raven-large-language-models 에서 확인할 수 있습니다.