Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Fusing Bidirectional Chains of Thought and Reward Mechanisms A Method for Enhancing Question-Answering Capabilities of Large Language Models for Chinese Intangible Cultural Heritage

Created by
  • Haebom

저자

Ruilin Liu, Zhixiao Zhao, Jieqiong Li, Chang Liu, Dongbo Wang

개요

본 논문은 무형문화유산(ICH) 데이터를 활용한 대규모 언어 모델(LLM) 미세조정 과정에서 발생하는 편향, 잘못된 지식 상속, catastrophic forgetting과 같은 문제점을 해결하기 위해 양방향 사고 연쇄(bidirectional chains of thought)와 보상 메커니즘을 통합한 새로운 훈련 방법을 제안한다. ICH 분야에 특화된 LLM인 ICH-Qwen을 기반으로, 전향적 추론뿐 아니라 역질문 및 역추론을 통해 잠재적 지식을 활성화하여 생성된 답변의 정확도를 높인다. 훈련 중 도입된 보상 메커니즘은 구조적 및 내용적 평가를 통해 모델 출력의 질을 향상시킨다. 실험 결과, 제안된 방법은 정확도, Bleu-4, Rouge-L 점수 측면에서 0-shot, 단계별 추론, 지식 증류, 질문 증강 방법보다 우수한 성능을 보였으며, 다양한 도메인 특화 데이터셋과 금융, Wikidata, StrategyQA와 같은 고급 모델에서도 성능 향상을 보여, 다양한 분야에 적용 가능한 유용한 모델 훈련 방법임을 입증하였다.

시사점, 한계점

시사점:
무형문화유산(ICH) 데이터를 활용한 LLM 미세조정 시 발생하는 문제점 해결에 대한 새로운 접근 방식 제시.
양방향 사고 연쇄와 보상 메커니즘을 통합하여 LLM 성능 향상.
다양한 도메인에서의 일반화 가능성을 입증.
향후 다양한 분야의 모델 훈련에 적용 가능한 유용한 방법론 제시.
한계점:
제안된 방법의 효과가 특정 데이터셋과 모델에 국한될 가능성.
보상 메커니즘의 설계 및 가중치 부여 방식에 대한 추가적인 연구 필요.
다양한 ICH 데이터의 특성을 충분히 고려했는지에 대한 추가적인 검토 필요.
실제 ICH 분야 전문가의 평가를 포함한 추가적인 검증 필요.
👍