Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mapping fNIRS Signals to Agent Performance: Toward Reinforcement Learning from Neural Feedback

Created by
  • Haebom
Category
Empty

저자

Julia Santaniello, Matthew Russell, Benson Jiang, Donatello Sassaroli, Robert Jacob, Jivko SInapov

개요

인간 피드백으로부터의 강화 학습 (RLHF)은 인간의 선호도를 에이전트의 훈련 과정에 통합하여 에이전트 행동을 정렬하는 방법론입니다. 본 논문에서는 수동적 뇌-컴퓨터 인터페이스 (BCI)를 활용하여 암묵적인 신경 신호로부터 에이전트 훈련을 안내하는 가능한 프레임워크를 소개합니다. 픽앤플레이스 로봇, Lunar Lander, Flappy Bird의 세 가지 도메인에서 25명의 참가자로부터 수집된 기능적 근적외선 분광법 (fNIRS) 기록의 새로운 데이터 세트를 제시하고 공개합니다. 에이전트 성능 수준 (최적, 최적 미만, 최악)을 예측하기 위해 전처리된 fNIRS 특징 벡터의 윈도우로부터 분류기를 훈련하여, 이진 분류에서 평균 F1 점수 67% 및 다중 클래스 모델에서 평균 46%를 달성했습니다. 또한 에이전트가 선택한 행동과 일련의 최적에 가까운 정책 간의 편차 정도를 예측하는 회귀 모델을 훈련하여 연속적인 성능 측정을 제공합니다. 교차 피험자 일반화를 평가하고, 사전 훈련된 모델을 작은 샘플의 피험자별 데이터로 미세 조정하면 이진 및 다중 클래스 모델의 평균 F1 점수가 각각 17% 및 41% 증가한다는 것을 보여줍니다. 본 연구는 암묵적인 fNIRS 신호를 에이전트 성능에 매핑하는 것이 가능하며 개선될 수 있음을 보여주며, 미래의 뇌 기반 RLHF 시스템의 기반을 마련합니다.

시사점, 한계점

시사점:
암묵적 fNIRS 신호를 사용하여 에이전트 성능을 예측하는 것이 가능함을 입증했습니다.
다양한 도메인에서 데이터셋을 구축하고 공개하여 연구의 재현성을 높였습니다.
교차 피험자 일반화 및 모델 미세 조정을 통해 성능 향상을 확인했습니다.
뇌 기반 강화 학습 시스템의 개발 가능성을 제시했습니다.
한계점:
평균 F1 점수가 아직 개선의 여지가 있습니다.
데이터 세트의 규모가 상대적으로 작습니다 (참가자 25명).
특정 도메인 (Pick-and-Place Robot, Lunar Lander, Flappy Bird)에 국한된 연구입니다.
수집된 fNIRS 신호와 에이전트 성능 간의 인과관계를 완전히 규명하지 못했습니다.
👍