Sign In

The ORCA Benchmark: Evaluating Real-World Calculation Accuracy in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Claudia Herambourg, Dawid Siuda, Anna Szczepanek, Julia Kopczynska, Joao R. L. Santos, Wojciech Sas, Joanna Smietanska-Nowak

ORCA 벤치마크: AI 계산 능력에 대한 연구

개요

본 논문은 대규모 언어 모델(LLM)의 다중 도메인, 실제 상황에서의 정량적 추론 능력을 평가하기 위한 새로운 벤치마크인 ORCA (Omni Research on Calculation in AI) 벤치마크를 제시합니다. ORCA는 Omni의 계산기 엔진에서 검증된 출력을 사용하여, 금융, 물리학, 건강, 통계 등 다양한 분야에서 500개의 자연어 작업을 수행합니다. ChatGPT-5, Gemini 2.5 Flash, Claude Sonnet 4.5, Grok 4, DeepSeek V3.2의 5가지 최첨단 시스템은 45%에서 63%의 정확도를 보였으며, 주요 오류는 반올림(35%) 및 계산 실수(33%)와 관련이 있었습니다. 특정 분야에서는 수학 및 공학 분야에서 강점을, 물리학 및 자연 과학 분야에서 약점을 보였습니다. 상관관계 분석(r ≈ 0.40 - 0.65)은 모델들이 종종 함께 실패하지만 오류 유형에서 차이를 보여, 중복성보다는 부분적인 상호 보완성을 강조합니다. ORCA는 표준 수학 데이터셋과 달리 실제 문제에 걸쳐 단계별 추론, 수치적 정밀도 및 도메인 일반화를 평가합니다.

시사점, 한계점

최첨단 LLM의 실제 상황에서의 정량적 추론 능력 제한적 (45% - 63% 정확도).
주요 오류는 반올림 및 계산 실수와 관련.
수학 및 공학 분야에서 상대적으로 강점, 물리학 및 자연 과학 분야에서 약점.
모델 간 오류 유형의 차이로 부분적인 상호 보완성 존재.
단계별 추론, 수치적 정밀도, 도메인 일반화 평가에 중점.
👍