본 논문은 대규모 언어 모델(LLM)의 목표 지향성을 측정하는 새로운 방법을 제시합니다. 정보 수집, 인지적 노력, 계획 실행을 요구하는 과제를 통해 LLM의 목표 달성을 위한 능력 활용 정도를 평가합니다. Google DeepMind, OpenAI, Anthropic의 LLM을 대상으로 한 실험 결과, 목표 지향성은 과제 간에 비교적 일관적이며, 과제 수행 능력과는 다르고, 동기 부여 프롬프트에는 중간 정도로만 민감하다는 것을 보여줍니다. 대부분의 모델은 완전히 목표 지향적이지 않다는 점이 주목할 만합니다. 연구진은 제시된 목표 지향성 평가 방법이 LLM의 발전 모니터링 및 LLM의 작용적 특성에 대한 더욱 신중한 설계 선택을 가능하게 할 것이라고 기대합니다.