Optimizing Language Models for Crosslingual Knowledge Consistency

작성자

Haebom

카테고리

Empty

저자

Tianyu Liu, Jirui Qi, Mrinmaya Sachan, Ryan Cotterell, Raquel Fernandez, Arianna Bisazza

💡 개요

대규모 언어 모델(LLM)은 다국어 환경에서 질문에 대해 일관성 없는 답변을 생성하는 경향이 있어 신뢰도를 저하시킵니다. 본 연구는 강화 학습과 구조화된 보상 함수를 활용하여 이러한 문제를 완화하고, LLM 자체에서 파생된 DPO(Direct Preference Optimization)에서 영감을 받은 Direct Consistency Optimization (DCO) 방법을 제안합니다. DCO는 명시적인 보상 모델 없이도 다국어 LLM의 교차 언어 일관성을 크게 향상시키며, 기존 방법론을 능가하는 성과를 보입니다.

🔑 시사점 및 한계

•

다국어 LLM에서 발생하는 교차 언어 지식의 불일치 문제를 효과적으로 해결할 수 있는 새로운 학습 방법론(DCO)을 제시합니다.

•

DCO는 별도의 보상 모델 없이 LLM 자체의 출력을 활용하여 학습 효율성을 높이고, 기존 DPO 방법론과도 시너지를 낼 수 있습니다.

•

특정 언어 쌍에 대한 학습 데이터가 부족하거나, 다양한 도메인에 걸친 일반화 성능 향상에 기여할 수 있습니다.

•

DCO의 성능은 학습 데이터의 품질 및 분포에 영향을 받을 수 있으며, 더 복잡하거나 미묘한 지식 일관성 문제를 다루기 위한 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage