본 논문은 이종 데이터 소스로부터 얻은 오프라인 데이터를 활용하여 순차적 의사결정을 가속화하는 전이 학습에 초점을 맞추고 있습니다. 관측된 특징, 분포 또는 관측되지 않은 교란 변수에서 차이가 나는 이종 데이터 소스의 데이터는 종종 인과 효과를 비식별화하고 단순 추정치에 편향을 초래합니다. 이를 해결하기 위해, 본 논문은 공동 밀도에 대한 적분 제약 조건을 통해 정의된 구조적 인과 모델의 모호성 집합을 형성합니다. 이러한 집합에 대해 어떤 인과 효과를 최적화하는 것은 일반적으로 비볼록 프로그래밍으로 이어지며, 이는 이질성 또는 교란 하에서 가능한 효과의 범위를 엄격하게 경계짓는 해결책을 제공합니다. 효율적인 해결을 위해, 본 논문은 전체 모호성 집합을 탐색하는 hit-and-run 샘플러를 개발하고, 지역 최적화 오라클과 함께 사용하여 거의 확실하게 참값 한계에 수렴하는 인과 경계 추정치를 생성합니다. 추정 오차를 수용하기 위해 모호성 집합을 완화하고 인과 효과의 Lipschitz 연속성을 활용하여 정확한 오차 전파 보장을 확립합니다. 이러한 인과 경계는 암 제거 및 잘린 UCB 지수를 통해 밴딧 알고리즘에 포함되어 최적의 간격 의존 및 minimax 후회 경계를 생성합니다. 추정 오차를 처리하기 위해, 본 논문은 노이지 인과 경계를 통합하는 안전한 알고리즘도 개발합니다. 함수 근사를 사용하는 상황적 밴딧 설정에서, 본 논문의 방법은 인과 경계를 사용하여 함수 클래스와 컨텍스트당 동작 집합을 모두 가지치기하여 함수 클래스 복잡도에 대한 로그 의존성만으로 일치하는 상한 및 하한 후회 경계를 달성합니다. 본 논문의 분석은 인과 부가 정보가 온라인 학습을 언제 어떻게 가속화하는지 정확하게 특징짓고, 합성 벤치마크에 대한 실험은 데이터가 부족하거나 교란된 환경에서 상당한 후회 감소를 확인합니다.