Sign In

Text to Trust: Evaluating Fine-Tuning and LoRA Trade-offs in Language Models for Unfair Terms of Service Detection

Created by
  • Haebom
Category
Empty

저자

Noshitha Padma Pratyusha Juttu, Sahithi Singireddy, Sravani Gona, Sujal Timilsina

개요

본 연구는 법률 NLP 분야에서 핵심적인 응용 분야인 서비스 약관(ToS) 문서 내 불공정 조항 탐지를 위해 대규모 언어 모델(LLM)을 특수 법률 도메인에 적용하는 방법을 연구한다. 완전 미세 조정의 비용 문제를 해결하기 위해, BERT 및 DistilBERT를 미세 조정하고, TinyLlama, LLaMA 3B/7B, SaulLM에 4-bit Low-Rank Adaptation (LoRA)을 적용하며, GPT-4o 및 O-버전을 zero-shot 방식으로 평가한다. CLAUDETTE-ToS 벤치마크 및 Multilingual Scraper Corpus를 대상으로 실험을 진행한 결과, 완전 미세 조정이 가장 강력한 정밀도-재현율 균형을 달성했으며, LoRA 기반 모델은 최대 3배 낮은 메모리 비용으로 경쟁력 있는 재현율을 제공했다.

시사점, 한계점

시사점:
완전 미세 조정은 높은 성능을 달성하지만, 계산 비용이 많이 든다.
LoRA 기반 모델은 메모리 효율성을 높이면서도 경쟁력 있는 성능을 제공한다.
본 연구는 법률 텍스트 처리 분야의 미세 조정 연구를 위한 오픈 베이스라인을 제공한다.
한계점:
연구가 구체적인 모델 아키텍처 및 하이퍼파라미터에 대한 상세 분석을 포함하지 않을 수 있다.
다른 법률 관련 작업 및 데이터셋에 대한 일반화 가능성은 추가 연구가 필요하다.
제로샷 프롬프팅 방식의 성능에 대한 추가적인 분석이 부족할 수 있다.
👍