본 논문은 장기 평균 보상을 갖는 restless multi-armed bandits 문제에 대한 Lagrange Index Policy (LIP)를 연구합니다. 특히, 특정 자연 조건 하에서 점근적으로 최적인 것으로 알려진 휴리스틱 정책인 LIP와 Whittle Index Policy (WIP)의 성능을 비교합니다. 대부분의 경우 두 정책의 성능이 매우 유사하지만, WIP의 성능이 저하되는 경우에도 LIP는 매우 우수한 성능을 유지합니다. 모델 없는 환경에서 LIP에 대한 온라인 학습 방안을 얻기 위해, 표 형태와 신경망 기반의 강화 학습 알고리즘을 제안합니다. 제안된 LIP에 대한 강화 학습 방안은 WIP에 대한 유사한 방안보다 훨씬 적은 메모리를 필요로 합니다. 최적 웹 크롤링 및 가중 정보 노화 최소화에 적용되는 재시작 모델에 대한 Lagrange index를 분석적으로 계산합니다. 또한, 팔의 수가 무한대로 갈 때 동종 팔의 경우 점근적 최적성에 대한 새로운 증명을 교환 가능성과 de Finetti 정리에 기반하여 제시합니다.