Multiple Choice Learning of Low Rank Adapters for Language Modeling
Created by
Haebom
저자
Victor Letzelter, Hugo Malard, Mathieu Fontaine, Gael Richard, Slim Essid, Andrei Bursuc, Patrick Perez
개요
본 논문은 LoRA-MCL이라는 새로운 언어 모델 학습 방식을 제안합니다. 기존의 다음 토큰 예측 방식을 확장하여 추론 시 다양하고 그럴듯한 문장 연장을 생성하도록 설계되었습니다. 기존 언어 모델링은 본질적으로 불가능한 문제(ill-posed problem)인데, 주어진 문맥에 대해 여러 미래가 동등하게 그럴듯할 수 있기 때문입니다. LoRA-MCL은 다중 선택 학습(MCL)과 Winner-Takes-All(WTA) 손실 함수를 활용하여 저계층 적응(LoRA)을 통해 이러한 모호성을 효율적으로 처리합니다. 논문에서는 혼합 분포로부터 데이터가 생성된다고 가정하여 언어 모델링에 다중 선택 학습을 적용하는 이론적 해석을 제공하고, 혼합 마르코프 체인으로부터 샘플링된 데이터를 사용하여 제안된 접근 방식을 설명합니다. 실제 시각 및 음성 캡션 작업에 대한 광범위한 실험을 통해 생성된 출력의 다양성과 관련성이 높음을 보여줍니다.
시사점, 한계점
•
시사점:
◦
LoRA를 활용하여 다양하고 그럴듯한 문장 생성을 효율적으로 달성하는 새로운 방법 제시.
◦
다중 선택 학습(MCL)과 Winner-Takes-All(WTA) 손실 함수를 언어 모델링에 적용하는 이론적 해석 제공.