Sign In

Rethinking Data: Towards Better Performing Domain-Specific Small Language Models

Created by
  • Haebom
Category
Empty

저자

Boris Nazarov, Darya Frolova, Yackov Lubarsky, Alexei Gaissinski, Pavel Kisilev

개요

본 논문은 대규모 언어 모델(LLM)의 미세 조정에 드는 높은 계산 비용 문제를 해결하기 위해 소규모 언어 모델(LM)을 미세 조정하는 새로운 방법을 제시합니다. 다양한 단계에서 데이터 품질을 개선하여 복수 선택 질문 응답 과제에서 높은 정확도를 달성하는 데 중점을 둡니다. 구체적으로, 의미 있는 텍스트 청크 추출을 통한 데이터 구조화, 경량 청크 재순위 지정(CRR)을 통한 검색된 컨텍스트 개선, 그리고 서로 다른 매개변수와 데이터 하위 집합으로 미세 조정된 모델들을 병합하여 모델의 일반화 능력 향상 등의 기법을 제시하고 실험 결과를 통해 각 기법의 효과를 보여줍니다.

시사점, 한계점

시사점:
소규모 언어 모델을 효율적으로 미세 조정하여 대규모 언어 모델의 높은 계산 비용 문제를 해결할 수 있는 가능성 제시.
데이터 품질 개선을 통한 소규모 언어 모델의 성능 향상 방안 제시.
데이터 구조화, 경량 청크 재순위 지정, 모델 병합 등의 구체적인 기법 제시 및 실험적 검증.
한계점:
제시된 방법의 효과는 특정 과제(복수 선택 질문 응답)에 국한될 수 있음.
다른 유형의 과제나 데이터셋에 대한 일반화 성능은 추가 연구가 필요함.
경량 청크 재순위 지정기의 성능 향상에 대한 한계 및 개선 여지 존재 가능성.
모델 병합 전략의 최적화에 대한 추가 연구 필요성.
👍