본 연구는 코로나19 후유증(PCC)에 대한 취약 계층의 유병률, 불균형, 증상 변이를 이해하고 의료 서비스 개선 및 불평등 해소를 위해 사회적 건강 결정 요인(SDOH)을 PCC 연구에 통합하는 포괄적인 프레임워크를 개발하고자 한다. LitCOVID 저장소의 7,000개 이상의 PCC 사례 보고서로 구성된 PCC 사례 보고서 코퍼스를 구축하고, 709개의 보고서를 26가지 핵심 SDOH 관련 개체 유형으로 주석을 달았다. 사전 훈련된 NER 모델, 인간 검토 및 데이터 증강을 통해 개체 유형의 품질, 다양성 및 표현을 향상시켰다. NER, 자연어 추론(NLI), 3-gram 및 빈도 분석을 통합하는 NLP 파이프라인을 개발하여 이러한 개체를 추출하고 분석했다. NER 목표를 위해 인코더 전용 변압기 모델과 RNN 기반 모델을 모두 평가했으며, 미세 조정된 인코더 전용 BERT 모델이 전통적인 RNN 기반 모델보다 우수한 성능을 보였다. 탐색적 분석 결과, 질병 상태, 연령, 의료 접근성과 같은 빈번한 개체와 인종, 주거 상태와 같은 과소 대표되는 민감한 범주 간에 개체 풍부도의 변동성이 드러났다. 3-gram 분석은 연령, 성별, 질병 상태와 같은 개체 간의 빈번한 공동 발생을 강조했다. NLI 목표(함축 및 모순 분석)는 "폭력이나 학대를 경험함" 및 "의료 보험이 있음"과 같은 속성은 높은 함축률(82.4%-80.3%)을 보였지만, "여성임", "결혼함", "말기 질환이 있음"과 같은 속성은 높은 모순률(70.8%-98.5%)을 보였다.