본 논문은 대규모 언어 모델(LLM)이 과학 분야에서 활용되는 가운데, 모델이 과학적 추론의 근본적인 패러다임을 진정으로 이해하는지 파악하기 위해 Latent Reasoning Chain Extraction (ARCHE)이라는 새로운 과제를 제시합니다. ARCHE는 복잡한 추론을 Reasoning Logic Tree (RLT) 형태로 변환하여 모델이 Peirce의 추론 방식을 기반으로 한 추론 단계를 명확하게 분류하도록 합니다. 이를 위해, 70개의 Nature Communications 논문을 기반으로 한 ARCHE Bench를 공개하고, Entity Coverage (EC)와 Reasoning Edge Accuracy (REA)라는 두 가지 평가 지표를 제안합니다. ARCHE Bench에 대한 10개의 LLM 평가 결과, 모델들이 REA와 EC 간의 트레이드오프를 보였으며, 완전하고 표준화된 추론 체인을 추출하는 데 어려움을 겪는다는 것을 확인했습니다.