본 논문은 무형 문화유산(ICH) 데이터를 활용한 대규모 언어 모델(LLM) 미세 조정 시 발생하는 편향, 잘못된 지식 상속, catastrophic forgetting과 같은 문제점을 해결하기 위해 양방향 사고 연쇄(bidirectional chains of thought)와 보상 메커니즘을 통합한 새로운 훈련 방법을 제안합니다. ICH 분야를 위해 특별히 설계된 LLM인 ICH-Qwen을 기반으로, 순방향 추론뿐 아니라 역질문 및 역추론을 활용하여 잠재적 지식을 활성화시켜 생성된 답변의 정확도를 높입니다. 훈련 중 도입된 보상 메커니즘은 구조 및 내용 평가를 통해 모델 출력의 질을 향상시킵니다. 실험 결과, 제안된 방법은 정확도, Bleu-4, Rouge-L 점수 측면에서 0-shot, 단계별 추론, 지식 증류, 질문 증강 방법보다 우수한 성능을 보였으며, 다양한 도메인 특화 데이터셋과 금융, Wikidata, StrategyQA와 같은 분야의 고급 모델에서도 성능 향상을 보여, 다양한 분야에 적용 가능한 유용한 모델 훈련 방법임을 입증합니다.