Better World Models Can Lead to Better Post-Training Performance

Created by

Haebom

저자

Prakhar Gupta, Henry Conklin, Sarah-Jane Leslie, Andrew Lee

개요

본 연구는 Transformer 모델의 내부 표현과 다운스트림 능력에 명시적인 세계 모델링 목표가 미치는 영향을 다양한 훈련 단계에서 연구합니다. 2x2x2 루빅스 큐브를 사용하여 (1) 명시적인 사전 훈련된 세계 모델이 모델의 잠재 표현에 어떻게 영향을 미치는지, (2) 세계 모델 품질이 강화 학습 사후 훈련 후 모델의 성능에 어떻게 영향을 미치는지 질문합니다. 표준 다음 토큰 예측과 두 가지 명시적인 세계 모델링 전략(i) 상태 예측 사전 훈련 및 (ii) 결합된 상태 예측 + 다음 토큰 목표)을 비교하고, 그룹 상대 정책 최적화(GRPO)가 사후 훈련으로 적용된 후 작업 성능을 평가합니다. 선형 프로브와 인과적 개입을 통해 표현 품질을 평가합니다. 명시적인 세계 모델링은 더 선형적으로 디코딩 가능하고 인과적으로 조작 가능한 상태 표현을 생성합니다. 특히, 개선된 상태 표현은 GRPO에 더 높은 이점을 가져다주며, 특히 더 어려운 큐브 상태에서 그렇습니다. 본 연구 결과는 상태 표현을 개선하는 것이 시퀀스 계획 작업에 대한 사후 훈련의 효과를 향상시킬 수 있음을 나타냅니다.