현대 챗봇 대규모 언어 모델(LLM)이 생성하는 "AI 어시스턴트" 페르소나의 특성은 표면적인 행동과 가치관, 신념, 윤리에 영향을 미친다. 이는 상호 작용 품질, 지각된 지능, 개발자 및 사용자 의도와의 정렬에 영향을 미친다. 캐릭터 훈련으로 알려진 이 페르소나의 형성은 업계의 중요한 구성 요소이지만 학술 문헌에서는 거의 연구되지 않았다. 본 논문에서는 Constitutional AI를 활용하고, 시스템 프롬프트 제한이나 활성화 조작과 같은 대안보다 효과적이고 통제된 방식으로 어시스턴트 페르소나를 형성하기 위해 합성 자기 성찰 데이터를 사용하는 새로운 데이터 파이프라인을 활용하여 캐릭터 훈련의 최초 오픈 구현을 소개한다. 특히, 유머, 깊은 배려, 심지어 악의적인 11가지 예시 페르소나를 사용하여 세 가지 인기 있는 오픈 가중치 모델을 미세 조정했다. 본 접근 방식의 효과를 추적하기 위해 공개된 선호도를 분석하여 캐릭터의 명확하고 전체적인 변화를 밝히는 방법을 제시한다. 이러한 변화가 위의 두 가지 대안보다 적대적 프롬프팅에 더 강력하며, 더욱 일관되고 현실적인 생성을 이끌어낸다는 것을 발견했다. 마지막으로, 이 미세 조정이 일반적인 벤치마크로 측정된 일반적인 능력에 거의 또는 전혀 영향을 미치지 않는다는 것을 보여준다. 전체 사후 훈련 방법과 구현을 공개한다.