본 논문은 대화형 추천 시스템에서 사용자의 선호도를 효과적으로 학습하기 위해 대화형 상황적 밴딧(Conversational contextual bandits) 접근 방식을 개선하는 세 가지 새로운 알고리즘(CLiSK, CLiME, CLiSK-ME)을 제안합니다. 기존 알고리즘의 주요 한계점인 부족한 탐색과 비효율적인 대화 시작 전략을 해결하기 위해, CLiSK는 부드러운 키워드 컨텍스트를 도입하여 탐색을 강화하고, CLiME는 선호도 불확실성에 기반하여 적응적으로 대화를 시작하며, CLiSK-ME는 두 기법을 통합합니다. 이론적으로 세 알고리즘 모두 기존 방법보다 개선된 $O(\sqrt{dT\log{T}})$의 후회 상한선을 달성함을 증명하고, $\Omega(\sqrt{dT})$의 하한선을 제시하여 최적 근사 알고리즘임을 보입니다. 실험 결과, 합산 후회에서 최소 14.6%의 성능 향상을 보였습니다.