Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Rollout-Based Algorithm and Reward Function for Resource Allocation in Business Processes

Created by
  • Haebom

저자

Jeroen Middelhuis, Zaharah Bukhsh, Ivo Adan, Remco Dijkman

개요

본 논문은 비즈니스 프로세스의 사이클 타임을 최소화하고 효율성을 향상시키기 위한 자원 할당 문제를 다룹니다. 기존의 심층 강화 학습(DRL) 기반 방법들이 동적인 비즈니스 환경에 적합하지 않고, 목표 함수와 보상 함수 간의 불일치로 인해 최적이 아닌 정책을 학습할 수 있다는 한계를 지적합니다. 이를 해결하기 위해, 본 논문은 롤아웃 기반 DRL 알고리즘과 사이클 타임 최소화 목표 함수를 직접적으로 반영하는 보상 함수를 제안합니다. 제안된 알고리즘은 다양한 행동에 따른 실행 경로를 평가하여 정책을 반복적으로 개선하며, 수동적인 보상 함수 설계를 필요로 하지 않습니다. 실험 결과, 제안된 방법은 최적 정책을 계산할 수 있는 여섯 가지 시나리오에서 최적 정책을 학습하였고, 현실적인 규모의 비즈니스 프로세스에서는 기존 최고의 휴리스틱 방법들과 동등하거나 더 나은 성능을 보였습니다.

시사점, 한계점

시사점:
동적인 비즈니스 프로세스 환경에 적합한 새로운 DRL 기반 자원 할당 알고리즘 제시
목표 함수와 직접적으로 연관된 보상 함수 설계를 통해 보상 함수 설계의 어려움 해소
현실적인 규모의 비즈니스 프로세스에서 기존 방법 대비 우수하거나 동등한 성능을 보임
한계점:
제안된 알고리즘의 확장성 및 복잡한 비즈니스 프로세스에 대한 일반화 성능에 대한 추가적인 연구 필요
다양한 유형의 비즈니스 프로세스에 대한 실험적 검증이 더 필요함
최적 정책을 계산할 수 있는 시나리오에 국한된 실험 결과는 일반적인 비즈니스 프로세스에 대한 적용 가능성에 대한 추가적인 검토가 필요함
👍