Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Transplant Then Regenerate: A New Paradigm for Text Data Augmentation

Created by
  • Haebom

저자

Guangzhan Wang, Hongyu Zhang, Beijun Shen, Xiaodong Gu

개요

본 논문은 대규모 언어 모델(LLM)을 활용한 새로운 텍스트 증강 패러다임인 LMTransplant를 제안합니다. LMTransplant는 기존의 역번역과 같은 단순한 어휘 수준의 변형이 아닌, LLM의 지식을 활용하여 콘텐츠 수준에서 다양하고 창의적인 변형을 생성하는 것을 목표로 합니다. 이는 '이식-재생성' 전략을 통해, 즉 LLM에 의해 확장된 컨텍스트에 원본 텍스트를 통합하고 LLM에게 변형된 텍스트를 생성하도록 함으로써 달성됩니다. 실험 결과, LMTransplant는 기존 방법보다 우수한 성능을 보이며, 증강 데이터 크기가 증가함에 따라 확장성도 뛰어남을 확인했습니다.

시사점, 한계점

시사점:
LLM을 활용하여 기존 텍스트 증강 방법의 한계를 극복하고, 콘텐츠 수준의 다양하고 창의적인 변형을 생성할 수 있는 새로운 방법 제시.
LMTransplant는 기존 방법보다 우수한 성능과 확장성을 보임.
LLM의 지식을 효과적으로 활용하여 텍스트 증강의 질을 향상시킬 수 있음을 보여줌.
한계점:
제시된 방법의 성능 향상이 특정 데이터셋이나 작업에 국한될 가능성 존재.
LLM의 출력을 제어하는 데 어려움이 있을 수 있으며, prompt engineering에 대한 의존도가 높을 수 있음.
LMTransplant의 효과적인 활용을 위해서는 충분한 컴퓨팅 자원이 필요할 수 있음.
👍