Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?

Created by
  • Haebom
Category
Empty

저자

Giacomo Camposampiero, Michael Hersche, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi

개요

본 논문은 OpenAI의 o3-mini와 DeepSeek R1 두 가지 최첨단 대규모 추론 모델(LRM)을 Raven의 진보적 행렬을 기반으로 한 정립된 비언어적 인간 IQ 테스트에 초점을 맞춰 유추 추론에 대해 처음으로 평가한 연구 결과를 제시합니다. I-RAVEN 데이터셋과 더 어려운 확장판인 I-RAVEN-X를 사용하여 벤치마킹을 수행했습니다. I-RAVEN-X는 더 긴 추론 규칙과 속성 값 범위로 일반화하는 능력을 테스트합니다. 비언어적 유추 추론 테스트에서 시각적 불확실성의 영향을 평가하기 위해, 완벽한 지각을 가정하는 I-RAVEN-X 데이터셋을 확장했습니다. 이 불완전한 시각적 지각을 시뮬레이션하기 위해 두 가지 전략을 채택했습니다. 1) 무작위로 샘플링된, 퍼즐의 정답 예측에 기여하지 않는 혼란스러운 속성을 도입하고, 2) 입력 속성 값의 분포를 부드럽게 했습니다. 원본 I-RAVEN에서 86.6%였던 OpenAI의 o3-mini 작업 정확도는 더 어려운 I-RAVEN-X(입력 길이와 범위를 늘리고 지각적 불확실성을 에뮬레이션함)에서는 17.0%로 급감하여 무작위 확률에 근접했습니다. 이 감소는 추론 토큰을 3.4배 더 사용했음에도 발생했습니다. DeepSeek R1에서도 유사한 경향이 관찰되었습니다(80.6%에서 23.2%로 감소). 반면, I-RAVEN에서 최첨단 성능을 달성하는 신경 기호 확률적 귀납적 모델인 ARLC는 이러한 모든 분포 외 테스트에서 강력하게 추론할 수 있으며, 98.6%에서 88.0%로 약간 감소했을 뿐 강력한 정확도를 유지했습니다. 코드는 https://github.com/IBM/raven-large-language-models 에서 확인할 수 있습니다.

시사점, 한계점

시사점: 대규모 언어 모델의 유추 추론 능력에 대한 한계를 명확히 제시하고, 시각적 불확실성이 모델 성능에 미치는 영향을 규명했습니다. 신경 기호 확률적 귀납적 모델의 우수성을 보여주었습니다.
한계점: 실험에 사용된 데이터셋의 범위가 제한적일 수 있습니다. 다양한 유형의 유추 추론 문제에 대한 일반화 성능 평가가 추가적으로 필요합니다. 시각적 불확실성을 시뮬레이션하는 방법이 완벽하지 않을 수 있으며, 실제 인간의 지각과의 차이가 존재할 수 있습니다.
👍