Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can AI Read Between The Lines? Benchmarking LLMs On Financial Nuance

Created by
  • Haebom

저자

Dominick Kubica, Dylan T. Gordon, Nanami Emura, Derleen Saini, Charlie Goldenberg

개요

2025년 현재, 생성형 인공지능(GenAI)은 여러 산업 분야의 생산성 향상에 중추적인 역할을 하고 있습니다. 텍스트 생성을 넘어, GenAI는 코딩, 데이터 분석 및 연구 워크플로우에서 중요한 역할을 수행하고 있습니다. 특히 금융과 같이 전문적이고 중요한 영역에서는 대규모 언어 모델(LLM)의 출력의 신뢰성과 정확성을 평가하는 것이 중요합니다. 대부분의 최신 LLM은 텍스트를 숫자 벡터로 변환하는데, 이는 코사인 유사도 검색과 같은 작업에 사용되어 응답을 생성합니다. 그러나 이러한 추상화 과정은 특히 뉘앙스 있는 금융 맥락에서 감정적 어조의 오해로 이어질 수 있습니다. LLM은 일반적인 언어의 감정을 식별하는 데 능숙하지만, 어닝 콜 트랜스크립트에서 볼 수 있는 뉘앙스 있고 전략적으로 모호한 언어에는 어려움을 겪는 경우가 많습니다. 금융 공시는 종종 헤지된 진술, 미래 지향적인 언어 및 업계 특유의 전문 용어에 감정을 담고 있기 때문에 인간 분석가조차도 일관되게 해석하기 어렵고, AI 모델은 더욱 어렵습니다. 본 논문은 찰리 골든버그 교수가 이끄는 산타클라라 마이크로소프트 실습 프로젝트의 결과를 제시하며, 마이크로소프트의 Copilot, OpenAI의 ChatGPT, Google의 Gemini 및 기존 머신러닝 모델의 금융 텍스트 감정 분석 성능을 벤치마킹합니다. 마이크로소프트 어닝 콜 트랜스크립트를 사용하여 LLM에서 도출된 감정이 시장 심리 및 주가 변동과 얼마나 잘 상관관계를 갖는지 평가하고 모델 출력의 정확도를 평가합니다. 또한 감정 분석 결과를 개선하기 위한 프롬프트 엔지니어링 기법도 검토합니다. 어조와 주가 성과 간의 일치성을 평가하기 위해 감정 일관성의 시각화를 개발하고, 마이크로소프트의 사업 부문별 감정 추세를 분석하여 어떤 부문이 가장 큰 영향을 미치는지 확인합니다.

시사점, 한계점

시사점: LLM 기반 감정 분석 모델의 금융 텍스트 분석 성능을 다양한 모델(Copilot, ChatGPT, Gemini 등)을 통해 비교 분석하여 실제 시장 데이터와의 상관관계를 제시함으로써, 금융 분야에서의 LLM 활용 가능성과 한계를 밝힙니다. 프롬프트 엔지니어링 기법을 통해 성능 개선 가능성을 제시합니다. 마이크로소프트의 사업 부문별 감정 분석을 통해 시장 영향력이 큰 부문을 파악할 수 있습니다.
한계점: 분석 대상이 마이크로소프트의 어닝 콜 트랜스크립트로 제한되어 일반화 가능성에 대한 검토가 필요합니다. 모델 성능 평가 지표 및 프롬프트 엔지니어링 기법에 대한 상세한 설명이 부족합니다. 시장 심리 및 주가 변동과의 상관관계 분석에 대한 자세한 방법론이 제시되지 않았습니다.
👍