본 논문은 대규모 언어 모델(LLM)을 이용한 자산 가격 책정 및 주식 거래 전략의 일반화 가능성과 견고성을 비판적으로 평가합니다. 기존 연구들이 좁은 기간과 제한된 주식 종목에 대한 평가로 LLM 전략의 효과를 과대평가했다는 점을 지적하며, FINSABER라는 백테스팅 프레임워크를 제안하여 20년 이상의 장기간과 100개 이상의 종목에 걸쳐 LLM 기반 시장 타이밍 전략을 평가합니다. 그 결과, 기존 연구에서 보고된 LLM의 우위는 더 넓은 범위와 장기간 평가에서는 크게 저하됨을 밝힙니다. 시장 상황 분석을 통해 LLM 전략이 강세장에서는 보수적이어서 수동적 벤치마크를 하회하고, 약세장에서는 공격적이어서 큰 손실을 초래함을 보여줍니다. 따라서 단순한 프레임워크 복잡성 확장보다 추세 감지 및 시장 상황 인식 위험 관리를 우선시하는 LLM 전략 개발의 필요성을 강조합니다.