Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using Large Language Model Judges with Closed-Loop Reinforcement Learning Feedback

작성자

Haebom

카테고리

Empty

저자

Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman

💡 개요

기존 금융 예측 평가는 결과의 정확성에만 집중했지만, 최근 에이전트화된 예측 시스템은 복잡한 의사결정 과정을 거치므로 이에 대한 평가가 필요합니다. 본 논문은 대규모 언어 모델(LLM) 심판과 강화학습 피드백을 활용하여 예측 과정 자체를 다차원적으로 평가하는 새로운 방법론을 제안합니다. 제안된 방법론은 예측 시스템의 행동적 측면을 평가하여 성능 향상에 기여함을 입증했습니다.

🔑 시사점 및 한계

•

LLM을 활용한 예측 시스템의 의사결정 과정에 대한 다차원적 행동 평가가 가능해졌습니다.

•

도메인 특화된 6가지 차원(체제 감지, 라우팅, 적응, 위험 보정, 전략 일관성, 오류 복구)에서의 평가를 통해 예측 시스템의 세부적인 강점과 약점을 파악할 수 있습니다.

•

제안된 방법론은 강화학습 보상에 통합되어 예측 시스템의 성능을 효과적으로 개선시킬 수 있습니다.

•

본 연구는 오프라인 백테스팅 환경에서 수행되었으므로, 실제 라이브 환경에서의 적용 시 발생할 수 있는 효과에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage