본 논문은 무형 문화유산(ICH) 데이터를 사용하여 대규모 언어 모델(LLM)을 미세 조정할 때 발생하는 편향, 잘못된 지식 상속, 치명적인 망각과 같은 문제점을 해결하기 위해 새로운 훈련 방법을 제시합니다. ICH 분야를 위해 특별히 설계된 대규모 언어 모델인 ICH-Qwen을 기반으로, 양방향 사고 연쇄(bidirectional chains of thought)와 보상 메커니즘을 통합한 방법을 제안합니다. 이 방법은 순방향 추론뿐만 아니라 역질문과 역추론을 활용하여 모델의 잠재적인 지식을 활성화함으로써 생성된 답변의 정확도를 높입니다. 또한, 훈련 중에 보상 메커니즘을 도입하여 의사 결정 과정을 최적화하고, 구조적 및 내용 평가를 통해 모델 출력의 품질을 향상시킵니다. 실험 결과, 제안된 방법이 질문응답 과제에서 정확도, Bleu-4 및 Rouge-L 점수 측면에서 0-shot, 단계별 추론, 지식 증류 및 질문 증강 방법보다 우수한 성능을 보임을 보여줍니다. 더 나아가, 다양한 도메인 특정 데이터 세트와 금융, Wikidata, StrategyQA와 같은 분야의 고급 모델에서도 개선된 결과를 보이며, 다양한 분야의 미래 응용 프로그램에서 모델 훈련에 유용한 접근 방식임을 시사합니다.