본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 '소프트 싱킹(Soft Thinking)' 개념을 탐구한다. 기존의 이산 토큰 기반 추론 모델의 한계를 극복하기 위해 연속적인 개념 공간에서 추론할 수 있도록 소프트 토큰 생성을 활용하는 접근법을 다룬다. 연구진은 다양한 LLM의 내부 동작을 조사하여 소프트 싱킹 능력을 분석하고, 기존의 소프트 싱킹이 가장 영향력 있는 소프트 입력에만 의존하는 그리디 디코딩 방식으로 작동하며 다양한 추론 경로 탐색에 제한이 있음을 밝혔다. 이러한 한계를 극복하기 위해 디리클레 재샘플링과 Gumbel-Softmax 트릭과 같은 샘플링 전략을 통해 무작위성을 도입하는 방법을 제시하고, Gumbel-Softmax 트릭이 8가지 추론 벤치마크에서 우수한 성능을 보임을 실험적으로 증명한다.
시사점, 한계점
•
시사점:
◦
소프트 토큰을 이용한 소프트 싱킹이 LLM의 추론 능력 향상에 잠재력을 가지지만, 단순한 구현은 그리디 디코딩으로 이어질 수 있음을 보여줌.
◦
샘플링 전략(특히 Gumbel-Softmax 트릭)을 통해 소프트 싱킹의 한계를 극복하고 성능을 향상시킬 수 있음을 제시.