본 논문은 추론 시간 확장(Inference-Time Scaling)을 개방형 일반 영역 과제에 적용하는 새로운 방법을 제시합니다. 기존의 추론 시간 확장 기법들은 검증 가능한 답변을 필요로 하여 수학, 코딩, 논리 추론 등의 영역에 제한적으로 적용되었지만, 본 연구는 인간이 시도하고 피드백을 받아 개선하는 과정에서 영감을 얻어, 개방형 과제에 적용 가능한 피드백 및 편집 모델을 개발했습니다. 초기 응답 생성 모델, 피드백 모델, 응답 편집 모델 세 가지 모델을 활용하여, 초기 응답 초안, 효과적인 피드백, 편집된 응답의 수를 확장함으로써 성능 향상을 이루었습니다. Llama 3 계열의 70B 모델 기반 설정에서 Arena Hard 벤치마크에서 92.7점(2025년 3월 5일 기준)의 최고 성능을 달성하여, OpenAI o1-preview-2024-09-12(90.4점) 및 DeepSeek R1(92.3점)을 능가했습니다.