# LLMs are Single-threaded Reasoners: Demystifying the Working Mechanism of Soft Thinking

### 저자

Chunhung Wu, Jinliang Lu, Zixuan Ren, Gangqiang Hu, Zhi Wu, Dai Dai, Hua Wu

### 개요

본 논문은 대규모 언어 모델(LLM)의 '소프트 사고(Soft Thinking)' 능력을 다양한 탐색 기법을 통해 조사한다. 소프트 사고는 연속적인 개념 공간 내에서 추론을 용이하게 하기 위해 소프트 토큰을 생성하는 것을 목표로 한다.  기존의 믿음과 달리,  LLM은 후속 디코딩 단계에서 소프트 입력의 가장 영향력 있는 구성 요소에 주로 의존하며, 다양한 추론 경로 탐색을 저해한다는 것을 밝혔다. 이러한 한계를 극복하기 위해, Dirichlet 재샘플링과 Gumbel-Softmax 기법과 같은 샘플링 전략을 통해 무작위성을 도입하여 소프트 사고의 잠재력을 실현하고자 한다.  실험 결과, Gumbel-Softmax 기법이 8가지 추론 벤치마크에서 우수한 성능을 보였다.

### 시사점, 한계점

- **시사점:**

    - LLM의 소프트 사고 능력에 대한 심층적인 이해 제공.

    - 기존 소프트 사고 방식의 한계점(탐색 경로 제한)을 규명.

    - 무작위성 도입을 통한 소프트 사고 성능 향상 가능성 제시.

    - Gumbel-Softmax 기법의 효과성 검증.

- **한계점:**

    - 제한된 벤치마크(8가지) 사용.

    - 다른 샘플링 전략에 대한 추가적인 연구 필요.

    - 다양한 LLM 아키텍처에 대한 일반화 가능성 검증 필요.

[PDF 보기](https://arxiv.org/pdf/2508.03440)

![https://i.imgur.com/41EkeVQ.jpeg](https://i.imgur.com/41EkeVQ.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
