본 논문은 LLM 기반 에이전트의 복잡성을 해결하기 위해, 인간 중심적인 평가 프레임워크 PULSE를 제안합니다. PULSE는 사용자 피드백 수집, 사용자 만족도 예측을 위한 ML 모델 훈련, 인간 만족도 평가와 모델 생성 유사 레이블을 결합하여 결과를 계산합니다. 15,000명 이상의 사용자가 참여하는 대규모 웹 플랫폼에서 OpenHands 에이전트를 사용하여 PULSE를 배포하고, LLM 백본, 계획 전략, 메모리 메커니즘 등 3가지 에이전트 설계 결정이 개발자 만족도에 미치는 영향을 연구했습니다. 또한, 표준 A/B 테스트 대비 40%의 신뢰 구간 감소를 보여주며, 실제 사용 결과와 벤치마크 성능 간의 차이점을 발견했습니다.