Pareto-NRPA는 이산 탐색 공간에서 다중 목표 최적화 문제를 위해 설계된 새로운 Monte-Carlo 알고리즘입니다. 단일 목표 문제에 대해 원래 공식화된 Nested Rollout Policy Adaptation (NRPA) 알고리즘을 확장하여, Pareto-NRPA는 중첩 검색 및 정책 업데이트 메커니즘을 다중 목표 최적화로 일반화합니다. 알고리즘은 일련의 정책을 사용하여 솔루션 공간의 서로 다른 영역을 동시에 탐색하고, 각 검색 수준에서 지배되지 않는 전선을 유지합니다. 정책 적응은 파레토 전선 내의 시퀀스의 다양성과 고립에 따라 수행됩니다. MO-TSPTW(시간 창이 있는 외판원 문제의 새로운 이중 목표 변형)와 잘 알려진 벤치마크에 대한 신경 아키텍처 검색 작업을 포함한 두 가지 유형의 문제에 대해 Pareto-NRPA를 벤치마킹했습니다. 결과는 Pareto-NRPA가 수렴 및 솔루션 다양성 측면에서 최첨단 다중 목표 알고리즘에 대해 경쟁력 있는 성능을 달성함을 보여줍니다. 특히, Pareto-NRPA는 제약된 검색 공간에서 최첨단 진화적 다중 목표 알고리즘보다 훨씬 뛰어난 성능을 보입니다. 이 연구는 NRPA를 다중 목표 설정에 처음으로 적용한 것입니다.