Sign In

Mechanics of Learned Reasoning 1: TempoBench, A Benchmark for Interpretable Deconstruction of Reasoning System Performance

Created by
  • Haebom
Category
Empty

저자

Nikolaus Holzer, William Fishell, Baishakhi Ray, Mark Santolucito

개요

대규모 언어 모델(LLM)의 추론 능력 향상을 위해, 임시 생성 데이터 세트나 Lean 증명 시스템과 같은 형식을 사용한다. 본 논문에서는 LLM 추론 능력 분석을 위한 최초의 형식적으로 기반을 둔 검증 가능한 진단 벤치마크인 TempoBench를 소개한다. TempoBench는 temporal trace evaluation (TTE) 및 temporal causal evaluation (TCE)를 사용하여 추론 능력을 평가하며, 복잡성이 증가함에 따라 LLM의 성능 저하를 확인하였다.

시사점, 한계점

시사점:
LLM의 추론 능력에 대한 체계적인 분석을 위한 형식적이고 검증 가능한 벤치마크 제공.
TTE와 TCE를 통해 LLM의 추론 능력의 다양한 측면 평가.
LLM이 TCE 과제를 이해하지만, 시스템 복잡성 증가에 따라 성능이 저하됨을 확인.
한계점:
현재 연구에서는 TCE-hard에서 낮은 점수를 보여, 복잡한 시스템에 대한 LLM의 추론 능력 향상 필요.
벤치마크의 범위와 다양한 추론 task에 대한 적용 가능성 확장 필요.
👍