T 세포 수용체(TCR)와 항원 결합 예측의 어려움을 해결하기 위해, 대규모 TCR CDR3 시퀀스 데이터셋을 기반으로 경량 마스크 언어 모델인 tcrLM을 개발했습니다. tcrLM은 TCR 시퀀스의 마스크된 부분을 추론하도록 학습되어 TCR 시퀀스에서 표현력이 풍부한 특징을 추출하며, 가상 적대적 훈련을 통해 견고성을 높였습니다. 1억 개 이상의 고유 시퀀스를 포함하는 가장 큰 TCR CDR3 시퀀스 세트를 구축하여 tcrLM을 사전 훈련했습니다. 사전 훈련된 인코더는 TCR-항원 결합 특이성을 예측하는 데 사용되었으며, 독립, 외부 및 COVID-19 테스트 데이터 세트에서 기존 방법 및 다른 단백질 언어 모델보다 뛰어난 성능을 보였습니다.