Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Benchmarking LLM Agents for Wealth-Management Workflows

Created by
  • Haebom
Category
Empty

저자

Rory Milsom

개요

본 논문은 다양한 디지털 협업 도구에도 불구하고 여전히 발생하는 인간 오류와 지연 문제를 해결하기 위해, 일반 목적의 LLM 에이전트가 정확하고 경제적으로 대표적인 자산 관리 작업을 완료할 수 있는지 연구한다. 이를 위해, 합성 도메인 데이터를 도입하고, 동료 시뮬레이션을 강화했으며, 자동 작업 생성 파이프라인을 프로토타입화했다. 자산 관리 보조 수준의 에이전트 적합성을 측정할 수 있는 평가 세트를 생성하고 평가하는 것을 목표로, 검색, 분석, 요약/의사소통을 포함하는 12쌍의 자산 관리 보조 작업 벤치마크를 구축했다. 특히 높은 자율성과 낮은 자율성 변형 작업을 제시했다.

시사점, 한계점

에이전트는 수학적 추론 능력보다는 엔드투엔드 워크플로우의 신뢰성에 의해 제한된다.
자율성 수준이 에이전트의 성능에 유의미한 영향을 미친다.
모델에 대한 부정확한 평가는 벤치마킹을 방해한다.
👍