Sign In

Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

Created by
  • Haebom
Category
Empty

저자

Zhiyuan Zeng, Qinyuan Cheng, Zhangyue Yin, Yunhua Zhou, Xipeng Qiu

개요

본 논문은 OpenAI의 o1 시리즈와 같이 추론 시 계산 자원 할당을 조정하는 테스트 시간 스케일링(test-time scaling)을 사용하는 대규모 언어 모델(LLM)의 추론 능력 향상에 대해 연구합니다. QwQ, Deepseek-R1 (R1), LIMO 등 후속 모델들도 유사한 발전을 보이지만, 이러한 모델들이 실제로 테스트 시간 스케일링 기능을 갖추고 있는지에 대한 연구는 부족했습니다. 본 연구는 이러한 o1 유사 모델의 더 긴 사고 과정(CoTs)이 정확도를 일관되게 향상시키지 않으며, 오히려 정답보다 오답의 CoT가 더 긴 경우가 많다는 것을 발견했습니다. 이는 모델의 자기 수정 능력과 밀접한 관련이 있으며, 더 긴 CoT에는 자기 수정이 많아 성능 저하로 이어지는 경향이 있습니다. 또한 QwQ, R1, LIMO에 대한 순차적 및 병렬 스케일링 전략을 비교하여 병렬 스케일링이 더 나은 적용 범위와 확장성을 제공함을 확인했습니다. 이러한 통찰력을 바탕으로, 병렬 스케일링 전략과 CoT 길이 특성을 결합하여 기존의 다수결 투표 방식보다 모델의 테스트 시간 스케일링을 크게 향상시키는 Shortest Majority Vote 방법을 제안합니다.

시사점, 한계점

시사점:
o1 유사 모델에서 더 긴 CoT가 항상 정확도 향상으로 이어지지 않으며, 오히려 자기 수정으로 인한 성능 저하를 야기할 수 있음을 밝힘.
병렬 스케일링 전략이 순차적 스케일링보다 더 나은 성능과 확장성을 제공함을 보임.
기존 다수결 투표 방식보다 성능이 향상된 Shortest Majority Vote 방법을 제안.
한계점:
본 연구에서 제시된 Shortest Majority Vote 방법의 일반화 가능성에 대한 추가 연구가 필요함.
다양한 유형의 LLM과 작업에 대한 추가적인 실험이 필요함.
모델의 자기 수정 메커니즘에 대한 더 깊이 있는 분석이 필요함.
👍