Learning When Not to Learn: Risk-Sensitive Abstention in Bandits with Unbounded Rewards

Created by

Haebom

저자

Sarah Liaw, Benjamin Plaut

💡 개요

본 논문은 복구 불가능한 손상을 야기할 수 있는 고위험 AI 응용 분야에서, 기존 밴딧 알고리즘의 공격적인 탐색이 위험하다는 문제점을 지적합니다. 이를 해결하기 위해 멘토의 도움 없이도 안전하게 학습할 수 있도록 '기권' 옵션을 포함하는 두 가지 액션의 컨텍스트 밴딧 모델을 제안합니다. 제안된 알고리즘은 '신뢰 영역'을 기반으로 해를 보장하지 않는 경우에만 실행하며, i.i.d. 입력 조건 하에서 부분 선형적인 후회 보장을 통해 고위험 환경에서의 안전한 학습 에이전트 배포 가능성을 이론적으로 입증합니다.

🔑 시사점 및 한계

•

고위험 AI 환경에서 기존 밴딧 알고리즘의 근본적인 한계를 명확히 제시하고, '기권' 옵션의 필요성을 강조합니다.

•

'신뢰 영역' 기반의 신중한 탐색 전략을 통해 이론적으로 안전성을 보장하면서도 성능 저하를 최소화하는 알고리즘을 제안합니다.

•

제안된 알고리즘은 i.i.d. 입력이라는 가정 하에서 분석되었으며, 실제 복잡하고 동적인 환경에서의 적용 가능성에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage