Ad hoc 팀워크(AHT)는 이전에 보지 못한 팀원과 협업해야 하며, 이는 많은 실제 응용 분야에 중요합니다. AHT의 핵심 과제는 알려지지 않은 팀원을 즉시 예측하고 적응할 수 있는 자아 에이전트를 개발하는 것입니다. 기존 RL 기반 접근 방식은 단일 기대 반환을 최적화하여 정책이 단일 지배적 행동으로 축소되어 AHT에 내재된 다중 모드 협업 패턴을 포착하지 못하는 경우가 많습니다. 본 연구에서는 에이전트의 다중 모드 행동을 포착하여 팀원과의 다양한 협업 모드를 열어주는 확산 기반 접근 방식인 PADiff를 소개합니다. 그러나 표준 확산 모델은 매우 비정상적인 AHT 시나리오에서 예측하고 적응하는 능력이 부족합니다. 이러한 한계를 해결하기 위해 우리는 팀원에 대한 중요한 예측 정보를 디노이징 프로세스에 통합하는 새로운 확산 기반 정책을 제안합니다. 세 가지 협업 환경에서 수행된 광범위한 실험을 통해 PADiff가 기존 AHT 방법보다 성능이 뛰어남을 보여줍니다.
시사점, 한계점
•
PADiff는 AHT에서 에이전트의 다중 모드 행동을 포착하여 다양한 협업 모드를 가능하게 합니다.
•
팀원에 대한 예측 정보를 통합하여 비정상적인 AHT 시나리오에서 적응할 수 있는 능력을 향상시킵니다.
•
세 가지 협업 환경에서의 실험을 통해 기존 AHT 방법보다 우수한 성능을 입증했습니다.
•
연구에서는 PADiff의 구체적인 구현 및 성능에 대한 추가적인 세부 정보가 부족할 수 있습니다.