본 연구는 소규모 개방형 대규모 언어 모델(LLM)인 Llama-3.2-3b-Instruct를 활용하여 수용 및 책임 치료(ACT)를 제공하는 능력에 미치는 사후 훈련 방법론과 명시적 추론의 영향을 조사했습니다. Mistral-Large로 생성된 합성 ACT 대본을 사용하여 지도 학습 미세 조정(SFT)과 승산비 정책 최적화(ORPO)라는 두 가지 방법으로 모델을 훈련시켰으며, 각각 명시적 사고 과정(COT) 추론 단계를 포함하는 경우와 포함하지 않는 경우를 비교했습니다. ORPO 기반 모델은 ACT 충실도 및 치료적 공감 측면에서 SFT 및 기본 Instruct 모델보다 성능이 월등히 뛰어났습니다. COT의 효과는 조건부였는데, SFT 모델의 성능 향상에 기여했지만, ORPO 또는 Instruct 기반 모델에는 유의미한 이점을 제공하지 못했습니다. ORPO의 우수성은 '내용' 모방이 아닌 치료 '과정'을 학습하는 능력에서 기인하는 것으로 추정됩니다.