SELF-REDRAFT: Eliciting Intrinsic Exploration-Exploitation Balance in Test-Time Scaling for Code Generation
Created by
Haebom
Category
Empty
저자
Yixiang Chen, Tianshi Zheng, Shijue Huang, Zhitao He, Yi R. Fung
SELF-REDRAFT: Test-time Scaling with Intrinsic Exploration-Exploitation Balancing
개요
본 논문은 테스트 케이스가 즉시 사용 가능하지 않은 실제 코드 생성 시나리오에서 필수적인 테스트 시간 확장을 위해 인터프리터 피드백 없이 작동하는 SELF-REDRAFT 프레임워크를 소개합니다. SELF-REDRAFT는 본질적으로 결함이 있는 솔루션에 대해 새로운 초안을 제안하도록 모델을 장려하는 Self-Refine을 기반으로 합니다.
시사점, 한계점
•
SELF-REDRAFT는 동일한 최대 반복 횟수로 수렴할 때 Self-Refine보다 일관되게 더 나은 성능을 달성합니다.
•
지시적 피드백 생성 능력의 제약과 불안정한 차별적 판단으로 인해 개선의 여지가 남아 있습니다.