Are More Tokens Rational? Inference-Time Scaling in Language Models as Adaptive Resource Rationality

Created by

Haebom

저자

Zhimin Hu, Riya Roshan, Sashank Varma

💡 개요

본 연구는 대규모 언어 모델(LLM)의 추론 시 계산량 확장이 자원 합리성을 유발하는지에 대해 탐구합니다. 특히, 명령어 튜닝(IT) 모델과 강화 학습 기반의 대규모 추론 모델(LRM)을 대상으로, 명시적인 계산 비용 보상 없이도 태스크 복잡성에 따라 추론 전략이 변화하는 것을 관찰했습니다. 이를 통해 추론 시간 확장이 자원 합리성을 내재적으로 발현시킬 수 있음을 시사합니다.

🔑 시사점 및 한계

•

LLM은 태스크의 복잡성에 따라 연산 전략을 동적으로 조절하며, 이는 명시적인 비용 보상 없이도 나타나는 자원 합리성의 증거입니다.

•

LRM은 IT 모델보다 XOR 및 XNOR 함수와 같이 복잡한 논리 함수에 대해 더 강건한 추론 능력을 보입니다.

•

본 연구는 특정 태스크에 국한되었으므로, 다양한 복잡성과 제약 조건 하에서의 광범위한 추론 태스크에 대한 추가적인 검증이 필요합니다.

PDF 보기

Made with Slashpage