Sign In

Language Models can Self-Improve at State-Value Estimation for Better Search

Created by
  • Haebom
Category
Empty

저자

Ethan Mendes, Alan Ritter

개요

본 논문은 다단계 추론 작업, 특히 웹 작업과 같은 대화형 도메인에서 지상 진실 작업 완료 보상이나 인간 데모 수집이 비용이 많이 들고 시간이 오래 걸리는 문제를 해결하기 위해 자기 지도 학습 방식인 "자기 학습 선행(self-taught lookahead)"을 제시합니다. 이 방법은 상태 전이 역학을 활용하여 언어 모델 제어 검색을 효과적으로 안내할 수 있는 가치 모델을 훈련합니다. 실험 결과, 자기 학습 선행으로 개선된 중간 크기(80억 매개변수)의 개방 가중치 가치 모델이 gpt-4o와 같은 최첨단 LLM을 가치 모델로 사용하는 것과 동등한 성능을 달성하는 것을 확인했습니다. 또한, 지상 진실 보상에 의존하지 않으면서 이전의 LLM 기반 트리 검색과 비교하여 비용은 37배 줄이면서 성능을 20% 향상시키는 것을 확인했습니다.

시사점, 한계점

시사점:
다단계 추론 작업에서 지상 진실 보상이나 인간 데모에 대한 의존성을 줄일 수 있는 새로운 자기 지도 학습 방법을 제시합니다.
중간 크기의 LLM을 사용하여 최첨단 LLM과 비슷한 성능을 달성할 수 있음을 보여줍니다.
기존 방법보다 비용 효율적으로 성능을 향상시킬 수 있습니다.
한계점:
제시된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다.
특정 유형의 작업에만 적용 가능할 수 있습니다.
80억 매개변수의 LLM을 사용했으므로, 더 작은 LLM에 적용했을 때의 성능은 확인되지 않았습니다.
👍