Sign In

Self-Harmony: Learning to Harmonize Self-Supervision and Self-Play in Test-Time Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Ru Wang, Wei Huang, Qi Cao, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo

개요

Self-Harmony는 추론 시 합성 신호만을 사용하여 모델을 적응시키는 Test-time reinforcement learning (TTRL) 프레임워크입니다. 이 프레임워크는 정답이 원래 질문과 그 패러프레이즈(paraphrase) 모두에서 안정적으로 유지된다는 직관에 기반합니다. Solver는 정답을 생성하고 Reframer는 입력을 다시 표현하는 두 가지 역할을 수행하며, 조화 평균을 사용하여 원래 및 다시 표현된 뷰에서 답변 빈도를 집계하여 스퓨리어스(spurious) 답변을 방지합니다. Self-Harmony는 다양한 추론 벤치마크에서 뛰어난 성능과 안정성을 보입니다.

시사점, 한계점

시사점:
라벨 없는 테스트 시간 적응 방식에서 SOTA 달성.
다양한 추론 벤치마크에서 우수한 성능.
훈련 실패가 없는 높은 안정성.
인간의 감독이나 보조 모델이 필요하지 않음.
한계점:
논문 자체에서 명시된 한계점은 제시되지 않음. (논문 요약에 한계점에 대한 언급 없음)
👍