Sign In

SELF-REDRAFT: Eliciting Intrinsic Exploration-Exploitation Balance in Test-Time Scaling for Code Generation

Created by
  • Haebom
Category
Empty

저자

Yixiang Chen, Tianshi Zheng, Shijue Huang, Zhitao He, Yi R. Fung

SELF-REDRAFT: Test-time Scaling with Intrinsic Exploration-Exploitation Balancing

개요

본 논문은 테스트 케이스가 즉시 사용 가능하지 않은 실제 코드 생성 시나리오에서 필수적인 테스트 시간 확장을 위해 인터프리터 피드백 없이 작동하는 SELF-REDRAFT 프레임워크를 소개합니다. SELF-REDRAFT는 본질적으로 결함이 있는 솔루션에 대해 새로운 초안을 제안하도록 모델을 장려하는 Self-Refine을 기반으로 합니다.

시사점, 한계점

SELF-REDRAFT는 동일한 최대 반복 횟수로 수렴할 때 Self-Refine보다 일관되게 더 나은 성능을 달성합니다.
지시적 피드백 생성 능력의 제약과 불안정한 차별적 판단으로 인해 개선의 여지가 남아 있습니다.
다양한 LLM 간에 균형 전략이 현저하게 다르며, 이는 모델별 행동을 반영합니다.
본 연구는 테스트 시간 확장에서 본질적인 탐색-활용 균형의 기준을 설정합니다.
피드백 및 차별 능력은 향후 발전을 위한 핵심 영역으로 확인되었습니다.
👍