본 논문은 대화 녹음 기록 파이프라인에서 대규모 언어 모델(LLM)을 활용하여 문법, 구두점, 가독성을 개선하는 후처리 과정에 보완적인 단계를 제시합니다. 이는 화자의 나이, 성별, 감정과 같은 메타데이터 태그를 추가하여 대화 기록을 풍부하게 하는 것입니다. 일부 태그는 전체 대화에 대한 전역적인 태그이고, 다른 일부는 시간에 따라 변하는 태그입니다. Whisper 또는 WavLM과 같은 고정된 오디오 기반 모델과 고정된 LLAMA 언어 모델을 결합하여 각 모델의 작업별 미세 조정 없이 화자 속성을 추론하는 접근 방식을 제시합니다. 오디오와 언어 표현을 연결하는 경량의 효율적인 커넥터를 사용하여 모듈성과 속도를 유지하면서 화자 프로파일링 작업에서 경쟁력 있는 성능을 달성합니다. 또한, 고정된 LLAMA 모델이 x-벡터를 직접 비교하여 일부 시나리오에서 8.8%의 동등 오류율(Equal Error Rate)을 달성함을 보여줍니다.