Sign In

Lost-in-the-Middle in Long-Text Generation: Synthetic Dataset, Evaluation Framework, and Mitigation

Created by
  • Haebom
Category
Empty

저자

Junhao Zhang, Richong Zhang, Fanshuang Kong, Ziyang Miao, Yanhan Ye, Yaowei Zheng

개요

본 논문은 긴 입력과 긴 출력을 다루는 장문 생성 작업에 초점을 맞춘 연구입니다. 기존의 장문 생성 방법들은 주로 짧은 입력으로부터 긴 텍스트를 생성하는 데 집중하여 긴 입력과 긴 출력을 필요로 하는 실제 응용 분야를 충족하지 못하고 있고, 입력 길이가 길어짐에 따라 "lost-in-the-middle" 현상이 발생하는 문제점을 지적합니다. 이를 해결하기 위해, 본 논문에서는 긴 입력과 긴 출력을 위한 벤치마크인 LongInOutBench를 제시하고, "lost-in-the-middle" 현상을 완화하기 위해 중요하지만 간과된 내용을 검색하고 재진술하는 Retrieval-Augmented Long-Text Writer (RAL-Writer)를 개발합니다. LongInOutBench를 이용한 RAL-Writer와 기존 방법들의 비교 실험 결과, 제안된 방법의 효과를 확인하였습니다. 소스 코드는 공개되었습니다.

시사점, 한계점

시사점:
긴 입력과 긴 출력을 다루는 장문 생성 작업을 위한 새로운 벤치마크 (LongInOutBench) 제시
"lost-in-the-middle" 현상을 완화하는 새로운 모델 (RAL-Writer) 제안 및 효과 검증
장문 생성 분야의 새로운 연구 방향 제시 및 실제 응용 가능성 확대
소스 코드 공개를 통한 연구의 재현성 및 확장성 확보
한계점:
LongInOutBench의 데이터셋 규모 및 다양성에 대한 추가적인 검토 필요
RAL-Writer의 성능 향상을 위한 추가적인 연구 필요
다양한 실제 응용 분야에 대한 추가적인 실험 필요
👍