StyleBench: Evaluating thinking styles in Large Language Models

Created by

Haebom

저자

Junyu Guo, Shangding Gu, Ming Jin, Costas Spanos, Javad Lavaei

💡 개요

본 연구는 대규모 언어 모델(LLM)의 추론 성능 향상을 위한 구조화된 추론 방식의 효과와 효율성을 탐구합니다. 다양한 추론 스타일(Chain-of-Thought, Tree-of-Thought 등)을 5가지 추론 과제와 15개 LLM에 걸쳐 평가한 결과, 구조적 복잡성이 특정 작업 요구사항과 모델 용량에서만 정확도를 향상시킨다는 것을 발견했습니다. 또한, 검색 기반 스타일은 개방형 조합 문제에서 유용하지만 작은 모델에서는 실패하며, 간결한 스타일은 구조화된 작업에서 성능 저하 없이 효율성을 크게 높인다는 것을 확인했습니다.

🔑 시사점 및 한계

•

구조화된 추론 방식은 작업의 복잡성과 모델의 용량에 따라 그 효과가 달라지며, 항상 효율적이거나 성능을 향상시키는 것은 아닙니다.

•

개방형 조합 문제에는 검색 기반 추론 스타일이 유리하지만, 작은 규모의 모델에는 적합하지 않으며, 간결한 스타일은 구조화된 작업에서 효율성을 높이는 데 효과적입니다.

•

작은 모델에서 발생하는 체계적인 실패 모드(예: 성급한 추측, 추론 제어 지침에 대한 약한 준수)를 식별하고, 적응적 추론 제어를 위한 지도 학습 및 강화 학습 기반 전략 선택의 효과를 비교했습니다.

PDF 보기

Made with Slashpage