# Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think

### 저자

Hasan Abed Al Kader Hammoud, Hani Itani, Bernard Ghanem

### 개요

본 논문은 대규모 언어 모델(LLM)의 복잡한 문제 해결 과정에서 단계별 추론의 신뢰성을 평가하는 새로운 방법을 제시합니다. 기존의 평가 방식이 최종 답변의 정확성에만 집중하는 것에 반해, 본 논문은 중간 추론 단계(subthoughts)를 분석하여 최종 답변의 신뢰성을 검증하고, 대안적인 추론 경로를 통해 더 나은 결과를 얻을 수 있는지를 탐구합니다.  LLM이 생성한 추론 과정을 여러 개의 subthoughts로 분리하고, 각 subthought의 끝에서 새로운 추론을 계속하여 여러 개의 잠재적 답변을 추출합니다. 이러한 답변들의 최빈값을 최종 답변으로 채택하는 방법을 제안하며, AIME2024와 AIME2025 데이터셋을 사용한 실험을 통해 기존 방식보다 최대 13% 및 10%의 정확도 향상을 확인하였습니다.  이 연구는 subthoughts의 일관성 분석을 통해 모델의 신뢰도와 정확도를 높이는 데 기여할 수 있음을 시사합니다. 소스 코드는 GitHub에서 공개됩니다.

### 시사점, 한계점

- **시사점:**

    - LLM의 추론 과정에 대한 새로운 분석 방법을 제시하여 최종 답변의 신뢰성을 향상시킬 수 있음을 보여줍니다.

    - 중간 추론 단계(subthoughts) 분석을 통해 모델의 신뢰도와 정확도를 평가하는 새로운 지표를 제공합니다.

    - 다양한 LLM과 수학적 추론 문제에 대한 실험 결과를 통해 방법의 효과성을 검증합니다.

    - 최빈값을 활용한 앙상블 방식으로 정확도 향상을 달성합니다.

- **한계점:**

    - 제안된 방법의 효과는 사용된 데이터셋과 LLM에 따라 달라질 수 있습니다.

    - subthoughts 분할에 사용된 언어적 단서의 일반성 및 한계에 대한 추가적인 연구가 필요합니다.

    - 모든 경우에 최빈값이 최적의 답변을 보장하지는 않을 수 있습니다.  다른 aggregation 방법에 대한 추가 연구가 필요할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2504.20708)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
