Sign In

How can we assess human-agent interactions? Case studies in software agent design

Created by
  • Haebom
Category
Empty

저자

Valerie Chen, Rohit Malhotra, Xingyao Wang, Juan Michelini, Xuhui Zhou, Aditya Bharat Soni, Hoang H. Tran, Calvin Smith, Ameet Talwalkar, Graham Neubig

PULSE 프레임워크를 이용한 인간-에이전트 상호작용 평가 연구

개요

본 논문은 LLM 기반 에이전트의 복잡성을 해결하기 위해, 인간 중심적인 평가 프레임워크 PULSE를 제안합니다. PULSE는 사용자 피드백 수집, 사용자 만족도 예측을 위한 ML 모델 훈련, 인간 만족도 평가와 모델 생성 유사 레이블을 결합하여 결과를 계산합니다. 15,000명 이상의 사용자가 참여하는 대규모 웹 플랫폼에서 OpenHands 에이전트를 사용하여 PULSE를 배포하고, LLM 백본, 계획 전략, 메모리 메커니즘 등 3가지 에이전트 설계 결정이 개발자 만족도에 미치는 영향을 연구했습니다. 또한, 표준 A/B 테스트 대비 40%의 신뢰 구간 감소를 보여주며, 실제 사용 결과와 벤치마크 성능 간의 차이점을 발견했습니다.

시사점, 한계점

시사점:
인간-에이전트 상호작용을 효율적으로 평가하는 PULSE 프레임워크 제시.
에이전트 설계 (LLM 백본, 계획 전략, 메모리 메커니즘)가 개발자 만족도에 미치는 영향에 대한 실질적인 통찰력 제공.
표준 A/B 테스트보다 더 강력한 결론 도출 가능.
실제 사용 결과와 벤치마크 성능 간의 차이점을 통해 벤치마크 기반 평가의 한계점을 제시.
한계점:
특정 에이전트 (OpenHands)와 특정 웹 플랫폼에 기반한 연구로, 일반화의 한계.
사용자 만족도 예측 모델의 성능에 따라 결과의 정확성이 제한될 수 있음.
3가지 에이전트 설계 결정 외 다른 설계 요소에 대한 연구 부족.
👍