대규모 언어 모델(LLM)을 활용하여 다자간 심의를 시뮬레이션할 수 있지만, 화자 귀속 데이터의 부족으로 현실적인 모델링에 한계가 있었습니다. 본 연구에서는 공공 Zoom 녹화 영상을 화자 속성, 페르소나 프로필, 실용적 행동 태그(예: [propose_motion]) 등의 메타데이터를 포함하는 대본으로 변환하는 재현 가능한 파이프라인을 소개합니다. 또한, 항소 법원 심리, 학교 운영위원회 회의, 시의회 회의 등 3개의 지방 정부 심의 데이터 세트를 공개합니다. 이 "행동 인식" 데이터를 사용하여 특정 참가자를 모델링하도록 LLM을 미세 조정하면, 혼란도(perplexity)가 67% 감소하고 화자 충실도 및 현실성에 대한 분류기 기반 성능 지표가 거의 두 배로 증가합니다. 튜링 스타일의 인간 평가는 시뮬레이션이 실제 심의와 구별하기 어려운 경우가 많다는 것을 보여주며, 복잡하고 현실적인 시민 시뮬레이션을 위한 실용적이고 확장 가능한 방법을 제공합니다.