Sign In

Neural Decoding of Overt Speech from ECoG Using Vision Transformers and Contrastive Representation Learning

Created by
  • Haebom
Category
Empty

저자

Mohamed Baha Ben Ticha, Xingchen Ran, Guillaume Saldanha, Gael Le Godais, Philemon Roussel, Marc Aubert, Amina Fontanell, Thomas Costecalde, Lucas Struber, Serpil Karakas, Shaomin Zhang, Philippe Kahane, Guillaume Charvet, Stephan Chabardes, Blaise Yvert

개요

심각한 마비 환자의 의사소통을 돕는 음성 뇌-컴퓨터 인터페이스(BCI)는 유망한 해결책을 제시한다. 최근 연구들은 표면 전두피질(ECoG) 또는 뇌내 기록으로부터 이해 가능한 음성을 재구성하는 데 성공했다. 본 연구에서는 ECoG 신호로부터 음성을 직접 회귀하여 스트리밍 방식으로 음성을 재구성하는 파이프라인을 제시한다. 이는 비전 트랜스포머와 대조 학습을 통합한 인코더-디코더 딥 뉴럴 아키텍처를 기반으로 한다. 간질 환자에게서 얻은 임상 경막하 전극 데이터셋과, 모터 BCI 시험 참가자에게서 얻은 완전 이식형 WIMAGINE 경막외 시스템 데이터를 사용하여 제안된 접근 방식을 평가한다. 이는 장기간 사용을 위한 전망을 제시하는 완전 이식형 무선 경막외 기록 시스템으로부터 음성을 디코딩하려는 최초의 시도이다.

시사점, 한계점

시사점:
ECoG 신호에서 음성을 직접 회귀하는 스트리밍 방식의 음성 재구성 파이프라인 제안.
비전 트랜스포머와 대조 학습을 통합하여 음성 디코딩 성능 향상.
완전 이식형 무선 경막외 기록 시스템으로부터 음성 디코딩을 시도하여 장기 사용 가능성 제시.
두 개의 다른 데이터셋 (경막하 전극, 경막외 시스템)을 사용한 실험으로 방법론의 일반화 가능성 시사.
한계점:
제시된 파이프라인의 성능 (구체적인 지표)에 대한 정보가 부족함.
실험에 사용된 참가자 수가 적어 일반화에 대한 한계 존재.
스트리밍 방식의 음성 재구성에 대한 구체적인 방법론 제시 부족. (예: latency, computational cost)
ECoG 신호의 특성과 데이터 전처리 방법에 대한 상세 정보 부재.
👍