AXIS: Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents
Created by
Haebom
저자
Junting Lu, Zhiyang Zhang, Fangkai Yang, Jue Zhang, Lu Wang, Chao Du, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
개요
본 논문은 복잡한 작업에서 LLM 기반 에이전트의 성능을 향상시키는 다중 모달 대규모 언어 모델(MLLM)을 기반으로 한 에이전트가 UI와 직접 상호 작용하는 과정에서 발생하는 높은 지연 시간과 낮은 신뢰성 문제를 해결하기 위해 AXIS 프레임워크를 제안한다. AXIS는 UI 조작 대신 API를 우선적으로 사용하여 작업을 수행하며, 애플리케이션의 자동 탐색을 통해 API 생성 및 확장을 용이하게 한다. Microsoft Word를 이용한 실험 결과, AXIS는 작업 완료 시간을 65-70% 단축하고 인지적 부하를 38-53% 감소시키는 동시에 97-98%의 정확도를 유지하는 것으로 나타났다. 이는 새로운 인간-에이전트-컴퓨터 상호 작용(HACI) 프레임워크에 대한 기여이며, LLM 시대에 애플리케이션을 에이전트로 전환하기 위한 새로운 UI 설계 원칙을 제시하여 에이전트 중심 운영 체제(Agent OS)를 향한 길을 열어준다.
시사점, 한계점
•
시사점:
◦
API 기반의 LLM 에이전트 프레임워크 AXIS를 통해 LLM 기반 에이전트의 효율성과 신뢰성을 크게 향상시킬 수 있음을 보여줌.
◦
작업 완료 시간 및 인지적 부하 감소를 통한 사용자 경험 개선 가능성 제시.
◦
새로운 HACI 프레임워크 및 에이전트 중심 운영 체제(Agent OS)를 위한 새로운 UI 설계 원칙 제시.
◦
애플리케이션 제공업체에게 애플리케이션을 에이전트로 전환할 수 있는 새로운 방법을 제공.
•
한계점:
◦
Microsoft Word에 대한 실험 결과만 제시되어 다른 애플리케이션으로의 일반화 가능성에 대한 추가 연구 필요.