Sign In

From Human Judgements to Predictive Models: Unravelling Acceptability in Code-Mixed Sentences

Created by
  • Haebom
Category
Empty

저자

Prashant Kodali, Anmol Goel, Likhith Asapu, Vamshi Krishna Bonagiri, Anirudh Govil, Monojit Choudhury, Ponnurangam Kumaraguru, Manish Shrivastava

개요

본 논문은 코드 혼합 문장의 자연스러움과 수용성을 명시적으로 모델링하지 않는 기존의 계산 접근 방식의 한계를 지적하며, 코드 혼합 문장의 수용성에 대한 인간 판단을 모델링하는 것이 자연스러운 코드 혼합 텍스트를 구별하고 품질 관리된 코드 혼합 텍스트 생성을 가능하게 한다는 점을 강조합니다. 이를 위해 영어-힌디어 코드 혼합 텍스트에 대한 인간 수용성 판단을 포함하는 Cline이라는 데이터셋을 구축했습니다. Cline은 합성적으로 생성된 코드 혼합 텍스트와 온라인 소셜 미디어에서 수집된 샘플을 포함하여 16,642개의 문장으로 구성된, 이 분야에서 가장 큰 데이터셋입니다. 분석 결과, CMI, 전환 지점 수, Burstiness와 같은 기존의 코드 혼합 메트릭은 인간의 수용성 판단과 상관관계가 낮다는 것을 보여주어 Cline 데이터셋의 필요성을 강조합니다. Cline을 사용한 실험 결과, 코드 혼합 메트릭을 특징으로 사용하여 훈련된 단순 다층 퍼셉트론(MLP) 모델보다 미세 조정된 다국어 대규모 언어 모델(MLLM)이 성능이 우수함을 보여줍니다. 특히, 인코더 모델 중에서는 XLM-Roberta와 Bernice가 IndicBERT보다 성능이 우수했으며, 인코더-디코더 모델 중에서는 mBART가 mT5보다 성능이 우수했지만, 인코더-디코더 모델은 인코더 전용 모델을 능가하지 못했습니다. 디코더 전용 모델은 다른 모든 MLLM과 비교했을 때 가장 좋은 성능을 보였으며, Llama 3.2 - 3B 모델이 유사한 크기의 Qwen, Phi 모델보다 성능이 우수했습니다. ChatGPT의 제로샷 및 퓨샷 기능과의 비교는 더 큰 데이터로 미세 조정된 MLLM이 ChatGPT를 능가하여 코드 혼합 작업의 개선 여지를 보여줍니다. 영어-힌디어에서 영어-텔루구 수용성 판단으로의 제로샷 전이가 무작위 기준선보다 우수했습니다.

시사점, 한계점

시사점:
영어-힌디어 코드 혼합 문장의 수용성을 평가하는 대규모 데이터셋 Cline을 구축하여 코드 혼합 연구에 기여.
기존 코드 혼합 메트릭의 한계를 밝히고 인간 판단 데이터의 중요성을 강조.
다양한 MLLM의 코드 혼합 문장 수용성 예측 성능을 비교 분석하여 최적 모델 제시.
제로샷 전이를 통한 언어 간 일반화 가능성 확인.
한계점:
Cline 데이터셋은 영어-힌디어 코드 혼합에만 집중되어 다른 언어 조합에 대한 일반화 가능성은 제한적.
사용된 MLLM의 성능 비교는 특정 설정과 데이터에 국한될 수 있으므로 다른 설정에서의 결과는 다를 수 있음.
인간 판단 데이터의 주관성과 편향 가능성에 대한 고려 필요.
더욱 다양하고 복잡한 코드 혼합 현상을 포괄하는 데이터셋 확장 필요.
👍