Sign In

Once Upon an Input: Reasoning via Per-Instance Program Synthesis

Created by
  • Haebom
Category
Empty

저자

Adam Stein, Neelay Velingker, Mayur Naik, Eric Wong

개요

본 논문은 대규모 언어 모델(LLM)이 복잡한 다단계 추론에서 겪는 어려움을 해결하기 위해 개발된 새로운 방법인 Per-Instance Program Synthesis (PIPS)를 소개합니다. PIPS는 작업별 지침이나 명시적 테스트 케이스 없이 구조적 피드백을 사용하여 개별 사례 수준에서 프로그램을 생성하고 개선합니다. 또한, 직접 추론과 프로그램 합성을 동적으로 선택하는 신뢰도 지표를 통합하여 성능을 향상시킵니다. Big Bench Extra Hard (BBEH), 시각적 질의 응답, 관계적 추론 및 수학적 추론을 포함한 30개의 벤치마크에서 실험한 결과, PIPS는 Chain of Thought (CoT) 및 Program of Thought (PoT)에 비해 절대 조화 평균 정확도를 최대 8.6%와 9.4%까지 향상시켰으며, 알고리즘 작업에서 바람직하지 않은 프로그램 생성을 최대 65.1%까지 줄였습니다.

시사점, 한계점

시사점:
LLM의 복잡한 추론 능력 향상: PIPS는 LLM의 다단계 추론 능력을 향상시키는 새로운 접근 방식을 제시합니다.
높은 성능 향상: 다양한 벤치마크에서 CoT 및 PoT 대비 상당한 성능 향상을 보였습니다.
바람직하지 않은 프로그램 생성 감소: 특히 알고리즘 작업에서 불필요한 프로그램 생성을 줄이는 데 효과적이었습니다.
한계점:
논문에 제시된 한계점은 명시적으로 언급되지 않았습니다. (논문 요약본에서는 한계점을 파악할 수 없습니다.)
👍