Pause-Tuning for Long-Context Comprehension: A Lightweight Approach to LLM Attention Recalibration
Created by
Haebom
Category
Empty
저자
James Begin, Namit Agrawal, Eshan Singh, Yicheng Fu, Sean O'Brien, Vasu Sharma, Kevin Zhu
개요
본 논문은 장문 맥락 이해, 특히 긴 입력의 중간에 위치한 내용을 이해하는 데 어려움을 겪는 대규모 언어 모델(LLM)의 한계인 'Lost-in-the-Middle'(LITM) 문제를 해결하기 위해 pause-tuning 기법을 제안합니다. pause-tuning은 인위적으로 삽입된 pause 토큰을 이용하여 입력을 더 작고 관리하기 쉬운 부분으로 분할함으로써, 모델의 어텐션을 재분배하여 장문 맥락 이해를 향상시키는 기법입니다. Needle-in-a-Haystack 벤치마크를 사용하여 최대 128K 토큰의 맥락에서 정보를 검색하는 과제를 통해 pause-tuning을 평가한 결과, LLaMA 3.2 3B Instruct 모델과 LLaMA 3.1 8B Instruct 모델의 성능이 각각 평균 10.61%와 3.57% 향상되는 것을 확인하여, pause-tuning이 어텐션 재분배 및 장문 맥락 유지를 성공적으로 향상시킨다는 것을 보여줍니다. 코드와 데이터는 https://anonymous.4open.science/r/LITM-PauseTokens-7357 에서 이용 가능합니다.
시사점, 한계점
•
시사점:
◦
pause-tuning 기법을 통해 LLM의 장문 맥락 이해 능력을 향상시킬 수 있음을 실험적으로 증명.
◦
LITM 문제 해결에 대한 효과적인 접근법 제시.
◦
LLaMA 모델의 성능 개선을 통해 pause-tuning의 실용성을 확인.
•
한계점:
◦
특정 모델(LLaMA)과 벤치마크(Needle-in-a-Haystack)에 대한 결과만 제시되어 일반화 가능성에 대한 추가 연구 필요.