REACT는 의료 및 법률 분야의 책임감 있는 고위험 의사결정 과제에서 대규모 언어 모델(LLM)의 추론 능력을 엄격하게 평가하도록 설계된 벤치마크입니다. 예측 정확도에 중점을 둔 기존 벤치마크와 달리, REACT는 투명하고 해석 가능한 추론을 강조하며, 모델이 전문가가 도출한 절차와 밀접하게 일치하도록 논리를 맞추어야 합니다. LLM 추론이 인간 전문가와 얼마나 밀접하게 일치하는지 평가하기 위해, 의료 분야의 511건의 임상 사례와 법률 분야의 86건의 법적 사례에 각 단계의 추론 과정을 뒷받침하는 상세한 전문가 추출 근거와 함께 주석을 달았습니다. 이러한 주석은 도메인별 추론 구조와 도메인 전문가가 도출한 의사결정 기준을 명시적으로 인코딩하는 신중하게 구성된 추론 그래프에 따라 안내되었습니다. 이러한 추론 그래프는 전문가 주석의 표준 역할을 할 뿐만 아니라 모델이 투명하고 단계적으로 추론할 수 있도록 하는 구조화된 지침 역할도 합니다. 수동 주석의 확장성 문제를 해결하기 위해 전문가가 정의한 추론 그래프 템플릿을 활용하여 새로운 그래프를 효율적으로 생성하는 반자동 주석 파이프라인을 개발하여 추가적인 중요 도메인으로 접근 방식을 확장할 가능성을 모색했습니다. 실험 결과에 따르면, 추론 그래프는 기존 기준선에 비해 LLM 추론의 해석 가능성과 정확도를 상당히 향상시키지만, 전문가 수준의 추론 성능과는 상당한 차이가 남아 있습니다.