Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Next Token Perception Score: Analytical Assessment of your LLM Perception Skills

Created by
  • Haebom

저자

Yu-Ang Cheng, Leyang Hu, Hai Huang, Randall Balestriero

개요

자기회귀적 사전 학습은 대규모 언어 모델(LLM)에서 범용 표현을 학습하는 사실상 표준 방식이 되었지만, 하위 인식 작업에 대한 선형 탐침 성능은 상당한 변동성을 보이며, 다음 토큰 예측에 최적화된 특징이 하위 인식 작업으로 잘 전이되지 않음을 시사합니다. 본 논문에서는 자기회귀적 사전 학습을 통해 학습된 표현이 인식에 가장 유익한 부분 공간 외부에 있는 특징을 포착할 수 있음을 보여줍니다. 자기회귀적 사전 학습과 하위 인식 간의 (불)일치를 정량화하기 위해, 선형 설정 하에서 자기회귀적 및 인식 특징 부분 공간 간의 중첩을 측정하는 다음 토큰 인식 점수(NTPS)를 도입합니다. 이 지표는 사전 학습된 표현과 레이블이 지정된 데이터로부터 폐쇄 형태로 쉽게 계산할 수 있으며, 과잉 손실의 상한과 하한을 모두 경계하는 것으로 입증되었습니다. 실험적으로, NTPS는 2억 7천만에서 80억 매개변수에 이르는 8개의 사전 학습된 모델과 12개의 다양한 NLP 데이터 세트에서 선형 탐침 정확도와 강한 상관관계가 있음을 보여주어 일치 척도로서의 유용성을 확인했습니다. 또한, 특히 대규모 모델에서 저차원 적응(LoRA) 미세 조정 후 NTPS가 증가함을 보여주어 LoRA가 인식 작업에 대한 표현 정렬을 향상시켜 부분 공간 중첩을 향상시키고 하위 성능을 향상시킴을 시사합니다. 더 중요한 것은, NTPS가 LoRA 미세 조정에 의해 얻어진 추가 정확도 향상을 신뢰할 수 있게 예측하여 LoRA 적응을 위한 경량 사전 선별 도구를 제공한다는 점입니다. 본 연구 결과는 LLM 인식 기술을 분석적으로 평가하기 위한 이론적 통찰과 실용적인 도구를 모두 제공합니다.

시사점, 한계점

시사점:
다음 토큰 인식 점수(NTPS)는 자기회귀적 사전 학습과 하위 인식 작업 간의 정렬을 측정하는 새로운 지표를 제공합니다.
NTPS는 사전 학습된 표현과 레이블이 지정된 데이터를 사용하여 쉽게 계산할 수 있으며, 과잉 손실의 상한과 하한을 경계합니다.
NTPS는 다양한 모델과 데이터 세트에서 선형 탐침 정확도와 강한 상관관계를 보이며, LLM의 인식 능력을 평가하는 유용한 도구임을 보여줍니다.
NTPS는 LoRA 미세 조정에 의한 성능 향상을 예측하여 LoRA 적응을 위한 경량 사전 선별 도구로 활용될 수 있습니다.
한계점:
NTPS는 선형 설정 하에서 도출된 지표이므로, 비선형 관계를 완전히 포착하지 못할 수 있습니다.
현재는 주로 자연어 처리 작업에 초점을 맞추고 있으며, 다른 도메인으로의 일반화 가능성은 추가 연구가 필요합니다.
LoRA 미세 조정 이외의 다른 미세 조정 방법에 대한 NTPS의 유용성은 추가적으로 검증되어야 합니다.
👍