본 논문은 로봇 수술에서 외과의의 개별적인 수술 스타일을 고려한 예측 모델을 제안합니다. 개별 외과의의 행동 예측을 위해 이산 확산 프레임워크와 비전-언어-행동(VLA) 파이프라인을 결합한 새로운 에이전트 모델링 접근 방식을 제시합니다. 수술 비디오, 의도 언어 및 외과의의 신원과 기술을 나타내는 개인화된 임베딩을 포함한 다중 모드 입력을 조건으로 하여 제스처 예측을 구조화된 시퀀스 잡음 제거 작업으로 구성합니다. 제3자 언어 모델을 사용하여 자연어 프롬프트를 통해 개인화된 임베딩을 인코딩하여 모델이 개별 행동 스타일을 유지하면서 명시적인 신원을 노출하지 않도록 합니다. JIGSAWS 데이터셋을 사용하여 평가한 결과, 각 외과의에게 고유한 의미있는 동작 지문을 학습하면서 제스처 시퀀스를 정확하게 재구성함을 보여줍니다. 개인화의 프라이버시 영향을 정량화하기 위해 멤버십 추론 공격을 수행한 결과, 더욱 표현력이 풍부한 임베딩은 작업 성능을 향상시키지만 동시에 신원 유출에 대한 취약성을 증가시킨다는 것을 발견했습니다. 이러한 결과는 개인화된 임베딩이 성능을 향상시키지만 신원 유출에 대한 취약성도 증가시킨다는 것을 보여주며, 수술 모델링에서 개인화와 프라이버시 위험 간의 균형을 맞추는 것이 중요함을 강조합니다.