Sign In

Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks

Created by
  • Haebom
Category
Empty

저자

Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Daniel Egert, Ellie Evans, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev

개요

본 논문은 추론 시간 확장(Inference-Time Scaling)을 개방형 일반 영역 과제에 적용하는 새로운 방법을 제시합니다. 기존의 추론 시간 확장 기법들은 검증 가능한 답변을 필요로 하여 수학, 코딩, 논리 추론 등의 영역에 제한적으로 적용되었지만, 본 연구는 인간이 시도하고 피드백을 받아 개선하는 과정에서 영감을 얻어, 개방형 과제에 적용 가능한 피드백 및 편집 모델을 개발했습니다. 초기 응답 생성 모델, 피드백 모델, 응답 편집 모델 세 가지 모델을 활용하여, 초기 응답 초안, 효과적인 피드백, 편집된 응답의 수를 확장함으로써 성능 향상을 이루었습니다. Llama 3 계열의 70B 모델 기반 설정에서 Arena Hard 벤치마크에서 92.7점(2025년 3월 5일 기준)의 최고 성능을 달성하여, OpenAI o1-preview-2024-09-12(90.4점) 및 DeepSeek R1(92.3점)을 능가했습니다.

시사점, 한계점

시사점:
개방형 일반 영역 과제에 대한 추론 시간 확장의 효과성을 입증했습니다.
인간의 문제 해결 과정을 모방한 새로운 접근 방식을 제시했습니다.
Arena Hard 벤치마크에서 최고 성능을 달성했습니다.
다양한 모델의 조합을 통한 성능 향상 가능성을 보여주었습니다.
한계점:
세 가지 모델을 모두 필요로 하므로, 계산 비용이 높을 수 있습니다.
Arena Hard 벤치마크에 대한 의존도가 높습니다. 다른 벤치마크에서의 성능은 추가적인 검증이 필요합니다.
피드백 모델과 편집 모델의 성능에 전체 시스템의 성능이 크게 의존적일 수 있습니다.
특정 모델 계열(Llama 3)에 대한 의존성이 존재합니다. 다른 모델 계열에 대한 일반화 가능성에 대한 추가 연구가 필요합니다.
👍