본 논문은 RLHF(Reinforcement Learning from Human Feedback)에서 나타나는 보상 해킹 문제, 특히 길이 편향(length bias) 문제를 해결하기 위한 새로운 프레임워크인 FiMi-RM을 제안한다. FiMi-RM은 기존 연구의 한계(편향 형태를 특징짓지 않거나 선형 관계를 가정)를 극복하기 위해, 보상 모델의 길이와 보상 간의 비선형 관계를 자동으로 학습하고 수정하는 3단계 접근 방식을 사용한다. 먼저, 길이 편향이 포함된 표준 보상 모델을 학습하고, 가벼운 피팅 모델을 사용하여 길이와 보상 간의 비선형 관계를 명시적으로 파악한 후, 이 학습된 관계를 보상 모델에 통합하여 편향을 제거한다. 실험 결과, FiMi-RM은 더 균형 잡힌 길이-보상 분포를 달성하고, 정렬 알고리즘에 적용 시 길이 제어 승률을 향상시키고 장황함을 줄이면서 성능 저하를 방지하는 것으로 나타났다.