OthelloGPT는 오델로 게임의 유효한 수를 예측하도록 훈련된 변환기 모델이며, 해석 가능성 연구에 적합한 테스트베드를 제공합니다. 본 논문에서는 의사 결정 트리를 기반으로 규칙 기반 게임 로직을 인코딩하는 MLP 뉴런을 식별하고 해석하는 자동화된 접근 방식을 제시합니다. 보드 상태를 뉴런 활성화에 매핑하고, 뉴런이 높은 활성을 보이는 의사 결정 경로를 추출하여 인간이 이해할 수 있는 논리 형태로 변환합니다. 연구 결과, 레이어 5의 뉴런 중 약 절반이 규칙 기반 의사 결정 트리로 정확하게 설명될 수 있으며, 나머지 뉴런은 더 분산적이거나 규칙 기반이 아닌 계산에 참여할 가능성이 높습니다. 또한, 특정 패턴에 해당하는 뉴런을 제거하여 해당 패턴에 대한 유효한 수 예측 능력이 저하되는 것을 확인했습니다.