Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Soft Tokens, Hard Truths

Created by
  • Haebom

저자

Natasha Butt, Ariel Kwiatkowski, Ismail Labiad, Julia Kempe, Yann Ollivier

개요

본 논문은 Chain-of-Thought (CoT) 단계에서 이산 토큰 대신 연속 토큰을 사용하는 대규모 언어 모델(LLM)의 추론 방식에 대해 다룬다. 연속 토큰 혼합을 통해 여러 추론 경로의 중첩을 동시에 시뮬레이션할 수 있다는 직관에 기반하여, 이론적으로 연속 토큰이 훨씬 더 큰 표현력을 가지며 특정 문제를 더 효율적으로 해결할 수 있다는 점이 증명되었다. 하지만 기존 연구에서는 사전 훈련된 이산 토큰 모델에 추론 시에만 연속 토큰을 사용하거나, 연속 CoT를 실제 이산 CoT로부터 증류해야 하는 계산 비용 문제로 인해 CoT의 토큰 수가 매우 제한적이었다. 본 연구는 기준 이산 CoT로부터 증류하지 않고 강화 학습(RL)을 통해 연속 CoT를 학습하는 확장 가능한 방법을 처음으로 제시한다. "소프트" 토큰, 즉 토큰 혼합과 입력 임베딩의 노이즈를 RL 탐색에 사용하여 계산 오버헤드를 최소화하고, 수백 개의 토큰으로 연속 CoT를 학습할 수 있게 한다. Llama 및 Qwen 모델(최대 8B)을 사용한 수학 추론 벤치마크에서 연속 CoT로 훈련한 결과, pass@1에서는 이산 토큰 CoT와 동등한 성능을 보였고, pass@32에서는 이를 능가하는 성능을 보이며 더 다양한 CoT를 생성함을 보여준다. 최적의 성능은 연속 CoT 토큰으로 훈련하고 추론에는 이산 토큰을 사용하는 경우이며, "소프트" 모델을 표준 방식으로 배포할 수 있음을 의미한다. 마지막으로, 연속 CoT RL 훈련이 도메인 외 작업에서 기본 모델의 예측을 더 잘 보존하여 기본 모델에 부드러운 영향을 준다는 것을 보여준다.

시사점, 한계점

시사점:
강화 학습을 통해 연속 CoT를 효율적으로 학습하는 확장 가능한 방법 제시
수백 개의 토큰을 사용하는 연속 CoT 학습 가능
수학 추론 벤치마크에서 이산 토큰 CoT 대비 향상된 성능 및 다양성 확인 (특히 pass@32)
연속 CoT로 훈련 후 이산 토큰으로 추론하는 방식이 최적의 성능을 보임
도메인 외 작업에서 기본 모델의 예측을 더 잘 보존
한계점:
현재는 수학 추론 벤치마크에 대한 결과만 제시. 다른 유형의 작업에 대한 일반화 가능성은 추가 연구 필요
8B 모델까지의 실험 결과만 제시. 더 큰 모델에 대한 확장성 검증 필요
"소프트" 토큰의 정의 및 노이즈 추가 방식에 대한 세부적인 설명 부족. 하이퍼파라미터 최적화에 대한 자세한 설명 부족.
👍