본 논문은 인간 피드백으로부터 강화 학습(RLHF)에서 보상 모델링을 위한 지배적인 구조가 된 대규모 디코더 기반 언어 모델의 추론 비용 문제를 해결하기 위해, 4억 개의 매개변수만을 가진 소형 양방향 마스크 언어 모델(MLM)인 TinyRM을 제시합니다. TinyRM은 FLAN 스타일 프롬프팅, Directional Low-Rank Adaptation (DoRA), 계층 동결을 결합하여, 훨씬 적은 자원을 사용하면서도 RewardBench에서 대규모 모델과 유사한 성능을 달성합니다. 특히 추론 작업에서 경량 미세 조정 방법이 효과적임을 실험을 통해 보여주며, 일반적인 모델 및 대화형 선호도 모델링에는 과제가 남아 있지만, 경량 양방향 아키텍처가 효율적이고 확장 가능한 대안임을 시사합니다.