본 논문은 무형문화유산(ICH) 데이터를 활용한 대규모 언어 모델(LLM) 미세조정 과정에서 발생하는 편향, 잘못된 지식 상속, catastrophic forgetting과 같은 문제점을 해결하기 위해 양방향 사고 연쇄(bidirectional chains of thought)와 보상 메커니즘을 통합한 새로운 훈련 방법을 제안한다. ICH 분야에 특화된 LLM인 ICH-Qwen을 기반으로, 전향적 추론뿐 아니라 역질문 및 역추론을 통해 잠재적 지식을 활성화하여 생성된 답변의 정확도를 높인다. 훈련 중 도입된 보상 메커니즘은 구조적 및 내용적 평가를 통해 모델 출력의 질을 향상시킨다. 실험 결과, 제안된 방법은 정확도, Bleu-4, Rouge-L 점수 측면에서 0-shot, 단계별 추론, 지식 증류, 질문 증강 방법보다 우수한 성능을 보였으며, 다양한 도메인 특화 데이터셋과 금융, Wikidata, StrategyQA와 같은 고급 모델에서도 성능 향상을 보여, 다양한 분야에 적용 가능한 유용한 모델 훈련 방법임을 입증하였다.