2025년 현재, 생성형 인공지능(GenAI)은 여러 산업 분야의 생산성 향상에 중추적인 역할을 하고 있습니다. 텍스트 생성을 넘어, GenAI는 코딩, 데이터 분석 및 연구 워크플로우에서 중요한 역할을 수행하고 있습니다. 특히 금융과 같이 전문적이고 중요한 영역에서는 대규모 언어 모델(LLM)의 출력의 신뢰성과 정확성을 평가하는 것이 중요합니다. 대부분의 최신 LLM은 텍스트를 숫자 벡터로 변환하는데, 이는 코사인 유사도 검색과 같은 작업에 사용되어 응답을 생성합니다. 그러나 이러한 추상화 과정은 특히 뉘앙스 있는 금융 맥락에서 감정적 어조의 오해로 이어질 수 있습니다. LLM은 일반적인 언어의 감정을 식별하는 데 능숙하지만, 어닝 콜 트랜스크립트에서 볼 수 있는 뉘앙스 있고 전략적으로 모호한 언어에는 어려움을 겪는 경우가 많습니다. 금융 공시는 종종 헤지된 진술, 미래 지향적인 언어 및 업계 특유의 전문 용어에 감정을 담고 있기 때문에 인간 분석가조차도 일관되게 해석하기 어렵고, AI 모델은 더욱 어렵습니다. 본 논문은 찰리 골든버그 교수가 이끄는 산타클라라 마이크로소프트 실습 프로젝트의 결과를 제시하며, 마이크로소프트의 Copilot, OpenAI의 ChatGPT, Google의 Gemini 및 기존 머신러닝 모델의 금융 텍스트 감정 분석 성능을 벤치마킹합니다. 마이크로소프트 어닝 콜 트랜스크립트를 사용하여 LLM에서 도출된 감정이 시장 심리 및 주가 변동과 얼마나 잘 상관관계를 갖는지 평가하고 모델 출력의 정확도를 평가합니다. 또한 감정 분석 결과를 개선하기 위한 프롬프트 엔지니어링 기법도 검토합니다. 어조와 주가 성과 간의 일치성을 평가하기 위해 감정 일관성의 시각화를 개발하고, 마이크로소프트의 사업 부문별 감정 추세를 분석하여 어떤 부문이 가장 큰 영향을 미치는지 확인합니다.