Self-Harmony는 추론 시 합성 신호만을 사용하여 모델을 적응시키는 Test-time reinforcement learning (TTRL) 프레임워크입니다. 이 프레임워크는 정답이 원래 질문과 그 패러프레이즈(paraphrase) 모두에서 안정적으로 유지된다는 직관에 기반합니다. Solver는 정답을 생성하고 Reframer는 입력을 다시 표현하는 두 가지 역할을 수행하며, 조화 평균을 사용하여 원래 및 다시 표현된 뷰에서 답변 빈도를 집계하여 스퓨리어스(spurious) 답변을 방지합니다. Self-Harmony는 다양한 추론 벤치마크에서 뛰어난 성능과 안정성을 보입니다.