Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

One-Pass to Reason: Token Duplication and Block-Sparse Mask for Efficient Fine-Tuning on Multi-Turn Reasoning

Created by
  • Haebom

저자

Ritesh Goru, Shanay Mehta, Prateek Jain

개요

본 논문은 대규모 언어 모델(LLM)을 다회차 추론 데이터셋에 미세 조정하는 과정에서, 추론 토큰의 가시성 제약으로 인해 대화당 N(회차 수)번의 별도 전달 과정이 필요하다는 문제를 해결하고자 제안된 연구입니다. 기존 방식에서는 각 회차의 추론 토큰이 이후 회차에서 버려지기 때문에 이러한 문제가 발생합니다. 본 논문에서는 응답 토큰을 복제하고 사용자 정의 어텐션 마스크를 사용하여 전체 대화를 단일 패스로 처리하는 방법을 제시합니다. 이 방법은 N-패스 방식과 동일한 손실을 생성하면서, 트랜스포머 기반 모델의 시간 복잡도를 O(N³)에서 O(N²)로 줄이고 메모리 복잡도는 동일하게 유지합니다. 결과적으로 정확도를 유지하면서 훈련 속도를 크게 향상시키는 것을 보여줍니다. 소스 코드는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
다회차 추론을 위한 LLM 미세 조정의 훈련 속도를 획기적으로 향상시킬 수 있습니다.
O(N³)에서 O(N²)로 시간 복잡도를 감소시켜 효율성을 높였습니다.
메모리 복잡도는 유지하면서 속도 향상을 달성했습니다.
제안된 방법은 기존 방식과 동일한 정확도를 유지합니다.
오픈소스로 공개되어 접근성이 높습니다.
한계점:
제안된 방법의 효율성은 트랜스포머 기반 모델에 국한될 수 있습니다.
다른 유형의 LLM이나 추론 방식에 대한 일반화 가능성은 추가 연구가 필요합니다.
다회차 추론 데이터셋의 특성에 따라 성능이 달라질 수 있습니다.
👍