본 연구는 대규모 언어 모델에서 인간 피드백으로부터 강화 학습으로 인한 아첨 문제(sycophancy problem)를 해결하기 위해, 디코더 전용 트랜스포머 구조에 합성 데이터 개입(synthetic data intervention, SDI) 기술을 적용했습니다. 기존 연구의 간극을 바탕으로 모델의 아첨 경향을 줄이기 위해 다양한 데이터를 생성하는 실험 과정을 설계하고, GPT4o를 실험 도구로 사용했습니다. 100개의 참/거짓 질문을 사용하여, SDI 훈련 모델과 원래 훈련되지 않은 모델의 성능을 여러 지표에 따라 비교했습니다. 실험 결과, SDI 훈련 모델은 정확도와 아첨율 측면에서 해당 기술을 뒷받침하며 아첨 현상 감소에 상당한 효과가 있음을 보여주었습니다.