본 논문은 AI 생성 텍스트와 인간이 작성한 텍스트의 구분 불가능성으로 인한 투명성 및 책임 문제를 해결하기 위해, 모델 가중치에 워터마크를 직접 삽입하는 새로운 전략을 제안합니다. 특히, 텍스트 생성 모델과 탐지기 역할을 하는 두 개의 저차원 어댑터를 미세 조정하여, 생성된 텍스트에 미세한 워터마크를 심고 동시에 탐지기가 이를 탐지하도록 최적화하는 방법을 제시합니다. 이를 통해 워터마킹 전략을 완전한 end-to-end 방식으로 학습할 수 있습니다. 워터마크의 강건성, 자연스러움, 작업 성능 간의 균형을 맞추는 최적화 과제를 논의하고, 지시어 미세 조정에 대한 수정 효과를 보여주는 결과를 제시합니다.