Progressive Autonomy as Preference Learning: A Formalization of Trust Calibration for Agentic Tool Use

작성자

Haebom

카테고리

Empty

저자

Changkun Ou

💡 개요

본 연구는 자동화된 에이전트의 도구 사용 시 인간의 승인을 받을지 또는 자율적으로 실행될지 결정하는 '신뢰 보정(trust calibration)' 문제를 선호도 학습(preference learning) 문제로 공식화합니다. Gaussian process를 활용하여 인간의 잠재적인 위험 감수 함수에 대한 사후 분포를 유지하고, 승인/거부 피드백을 통해 이 함수를 관찰하며, 가장 불확실한 지점에서 인간에게 에스컬레이션합니다.

🔑 시사점 및 한계

•

인간의 위험 감수 수준을 동적으로 학습하여 에이전트의 자율 실행 범위를 신뢰 기반으로 조정할 수 있습니다.

•

불확실성이 높은 상황에 집중적으로 인간의 피드백을 요청함으로써 효율적인 신뢰 보정이 가능합니다.

•

본 연구는 '허용/차단/질문' 영역으로 행동 공간을 분류하는 것을 목표로 하며, 이는 기존의 설계 최적화와는 다른 목적을 가집니다.

•

Gaussian process 기반의 근사적 분류 방법론과 샘플 효율성 주장이 적용 가능하지만, 본 연구의 실제적인 목표 달성을 위한 추가적인 검증이 필요할 수 있습니다.

PDF 보기

Made with Slashpage