본 논문은 다양한 실제 작업(스타일 전환, 사실 수정, 이메일 편집 등)을 다루는 일반적인 텍스트 재작성을 위한 대규모 언어 모델(LLM) 응용 프로그램을 제시합니다. 기존 방법들은 특정 작업이나 목표에 특화되어 일반화에 한계가 있었으나, 본 연구는 사실성, 스타일, 대화형 재작성 작업에 능숙한 일반적인 모델을 소개합니다. 자연스러운 지시문을 제공하는 대화형 재작성 데이터셋 ChatRewrite를 구축하고, LongFact, RewriteLM과 같은 기존 데이터셋과 결합하여 광범위한 벤치마크를 구성했습니다. 작업별 목표에 맞추기 위해, 작업별 가중치를 사용하는 목표 지향적 보상 모델을 활용하는 Dr Genre라는 분리된 보상 학습 프레임워크를 제안합니다. 평가 결과, 제안된 방법은 모든 대상 작업에서 더 높은 품질의 재작성을 제공하며, 지시 사항 준수, 내적 일관성, 불필요한 편집 최소화 등의 목표를 개선함을 보여줍니다.