Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learning Rules from Rewards

Created by
  • Haebom
Category
Empty

저자

Guillermo Puebla, Leonidas A. A. Doumas

개요

본 논문은 구조화된 관계적 표현을 활용하여 도메인 간 지식을 유연하게 일반화하는 인간의 능력을 연구하며, 적응적 행동을 유도하기 위해 이러한 표현이 어떻게 활용되는지에 초점을 맞춘다. Relational Regression Tree Learner (RRTL) 모델을 소개하여 학습 과정에서 과제 관련 관계를 선택함으로써 구조화된 관계적 입력에 대한 정책을 점진적으로 구축한다. RRTL은 관계적 강화 학습 프레임워크를 기반으로 하며, 특정 객체 구성을 참조하는 ground rule에 중점을 둔다. Breakout, Pong, Demon Attack 세 가지 Atari 게임에서, 모델은 광범위한 후보 관계 풀에서 관련 관계의 작은 집합을 식별하여 효과적으로 행동하는 것을 학습했다. 상대적 크기 값을 사용하여 상태 공간을 분할하는 모델이 논리적 분할을 사용하는 모델보다 더 강력한 학습을 보였다.

시사점, 한계점

강화 신호가 구조화된 표현의 선택을 안내할 수 있음을 입증하는 원리 증명 제공.
관계적 지식이 학습되고 적응적 행동에 어떻게 사용되는지 이해하기 위한 계산 프레임워크 제시.
세 가지 Atari 게임에서 RRTL 모델의 효과 입증.
상대적 크기 값을 사용한 모델이 논리적 분할 모델보다 더 강력한 학습 능력 보임.
논문의 구체적인 한계점은 명시되지 않음. (논문 내용 요약에 직접적으로 언급된 한계점은 없음)
👍