인간 피드백으로부터의 강화 학습 (RLHF)은 인간의 선호도를 에이전트의 훈련 과정에 통합하여 에이전트 행동을 정렬하는 방법론입니다. 본 논문에서는 수동적 뇌-컴퓨터 인터페이스 (BCI)를 활용하여 암묵적인 신경 신호로부터 에이전트 훈련을 안내하는 가능한 프레임워크를 소개합니다. 픽앤플레이스 로봇, Lunar Lander, Flappy Bird의 세 가지 도메인에서 25명의 참가자로부터 수집된 기능적 근적외선 분광법 (fNIRS) 기록의 새로운 데이터 세트를 제시하고 공개합니다. 에이전트 성능 수준 (최적, 최적 미만, 최악)을 예측하기 위해 전처리된 fNIRS 특징 벡터의 윈도우로부터 분류기를 훈련하여, 이진 분류에서 평균 F1 점수 67% 및 다중 클래스 모델에서 평균 46%를 달성했습니다. 또한 에이전트가 선택한 행동과 일련의 최적에 가까운 정책 간의 편차 정도를 예측하는 회귀 모델을 훈련하여 연속적인 성능 측정을 제공합니다. 교차 피험자 일반화를 평가하고, 사전 훈련된 모델을 작은 샘플의 피험자별 데이터로 미세 조정하면 이진 및 다중 클래스 모델의 평균 F1 점수가 각각 17% 및 41% 증가한다는 것을 보여줍니다. 본 연구는 암묵적인 fNIRS 신호를 에이전트 성능에 매핑하는 것이 가능하며 개선될 수 있음을 보여주며, 미래의 뇌 기반 RLHF 시스템의 기반을 마련합니다.