Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Explainable RL Policies by Distilling to Locally-Specialized Linear Policies with Voronoi State Partitioning

Created by
  • Haebom
Category
Empty

저자

Senne Deproost, Dennis Steckelmacher, Ann Nowe

개요

딥 강화 학습은 최적에 가까운 시스템 컨트롤러를 생성하는 최첨단 방법 중 하나입니다. 그러나 딥 RL 알고리즘은 투명성이 부족한 딥 신경망을 학습시켜 컨트롤러가 규정을 준수하거나 신뢰를 확보해야 할 때 어려움을 겪습니다. 이를 해결하기 위해 지식 증류를 사용하여 학습된 동작을 인간이 읽을 수 있는 모델로 이전할 수 있습니다. 일반적으로 이는 원본 모델을 평균적으로 모방하는 단일 모델로 수행되지만, 더 동적인 상황에서는 어려움을 겪을 수 있습니다. 핵심적인 과제는 이 더 간단한 모델이 유연성과 복잡성 사이의 적절한 균형 또는 편향과 정확성 사이의 적절한 균형을 가져야 한다는 것입니다. 본 논문에서는 단순화된, 인간이 이해할 수 있는 모델이 작동할 수 있는 영역으로 상태 공간을 분할하는 새로운 모델 불가지론적 방법을 제안합니다. 본 논문에서는 Voronoi 분할을 사용하여 선형 모델이 원본 컨트롤러와 유사한 성능을 달성할 수 있는 영역을 찾습니다. 그리드월드 환경과 고전적인 제어 작업을 통해 접근 방식을 평가합니다. 제안된 국소적으로 특화된 선형 모델로의 증류가 설명 가능한 정책을 생성하며, 증류가 블랙박스 정책을 따라잡거나 심지어 약간 능가한다는 것을 관찰합니다.

시사점, 한계점

시사점:
설명 가능한 정책을 생성합니다.
블랙박스 정책과 유사하거나 더 나은 성능을 보입니다.
Voronoi 분할을 사용하여 상태 공간을 분할합니다.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없습니다.
👍