Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Contextual Thompson Sampling via Generation of Missing Data

Created by
  • Haebom
Category
Empty

저자

Kelly W. Zhang, Tiffany Tianhui Cai, Hongseok Namkoong, Daniel Russo

개요

본 논문은 오프라인으로 학습된 생성 모델의 품질에 따라 불확실성을 측정하고 의사 결정을 수행하는 Thompson Sampling (TS) 컨텍스트 밴딧 알고리즘 프레임워크를 소개한다. 이 알고리즘은 환경의 불확실성을 관찰할 수 없는 잠재 변수에서 기인하는 것이 아니라, 누락되었지만 잠재적으로 관찰 가능한 결과(미래 및 반사실 결과 포함)에서 비롯되는 것으로 간주한다. 각 의사 결정 시점에 알고리즘은 생성 모델을 사용하여 누락된 결과를 확률적으로 추론하고, 추론된 완전한 데이터셋을 사용하여 정책을 적합시키며, 해당 정책을 사용하여 다음 액션을 선택한다. 이 알고리즘이 TS의 생성적 공식임을 증명하고 최첨단 후회 경계를 설정하며, 후회 경계는 생성 모델의 오프라인 예측 손실 품질에만 의존한다.

시사점, 한계점

시사점:
오프라인 생성 모델의 품질에 기반하여 불확실성을 측정하고 의사 결정을 수행하는 새로운 TS 알고리즘 프레임워크 제시.
상태-of-the-art 후회 경계를 달성하며, 오프라인 예측 손실에만 의존.
"oracle" 정책 적합 방법에 제약이 없어 유연성 제공.
한계점:
오프라인 생성 모델의 품질에 크게 의존하므로, 생성 모델의 성능이 알고리즘의 전체 성능을 제한할 수 있음.
구체적인 생성 모델의 구성 및 학습 방법에 대한 상세 내용이 부족할 수 있음.
실제 환경에서의 실험 결과 및 다른 TS 알고리즘과의 비교 분석이 더 필요할 수 있음.
👍