Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Bi-Level Contextual Bandits for Individualized Resource Allocation under Delayed Feedback

Created by
  • Haebom
Category
Empty

저자

Mohammadsina Almasi, Hadis Anahideh

개요

교육, 고용, 의료와 같이 중요도가 높은 분야에서 제한된 자원을 공정하게 할당하려면 단기적 효용과 장기적 영향의 균형을 유지해야 하며, 지연된 결과, 숨겨진 이질성, 윤리적 제약 사항을 고려해야 한다. 본 논문은 지연된 피드백 환경에서 개인별 자원 할당을 위한 새로운 2단계 컨텍스트 밴딧 프레임워크를 제안한다. 이는 동적 인구, 용량 제약, 시간 민감한 영향을 고려하여 실제 환경에서 작동하도록 설계되었다. 메타 레벨에서 모델은 공정성 및 운영 제약 조건을 충족하기 위해 하위 그룹별 예산 할당을 최적화한다. 기본 레벨에서는 관찰 데이터를 기반으로 훈련된 신경망을 사용하여 각 그룹 내에서 가장 반응성이 높은 개인을 식별하는 동시에 쿨다운 기간 및 자원별 지연 커널을 통해 모델링된 지연된 치료 효과를 고려한다. 시간적 역학 및 피드백 지연을 명시적으로 모델링함으로써 알고리즘은 새로운 데이터가 도착함에 따라 정책을 지속적으로 개선하여 보다 반응적이고 적응적인 의사 결정을 가능하게 한다. 교육 및 인력 개발 분야의 두 가지 실제 데이터 세트에서 접근 방식을 검증하여 누적 결과가 더 높고 지연 구조에 더 잘 적응하며 하위 그룹 간의 공정한 분배를 보장함을 보여준다.

시사점, 한계점

시사점:
지연된 피드백 환경에서 개인별 자원 할당을 위한 새로운 2단계 컨텍스트 밴딧 프레임워크 제안.
시간적 역학 및 피드백 지연을 명시적으로 모델링하여 보다 반응적이고 적응적인 의사 결정 가능.
교육 및 인력 개발 분야의 실제 데이터 세트에서 누적 결과 향상 및 공정한 분배를 입증.
기관 정책 및 사회 복지 개선을 위한 지연 인식 데이터 기반 의사 결정 시스템의 잠재력 강조.
한계점:
구체적인 한계점은 논문에 명시되지 않음. (논문 요약본에 해당 내용 없음)
👍