# ProFit: Leveraging High-Value Signals in SFT via Probability-Guided Token Selection

### 저자

Tao Liu, Taiqiang Wu, Runming Yang, Shaoning Sun, Junjie Wang, Yujiu Yang

### 💡 개요

대규모 언어 모델(LLM)의 지도 학습 미세 조정(SFT)은 인간의 의도에 맞추는 데 중요하지만, 단일 정답에 과적합되는 문제가 있습니다. 본 논문은 토큰 확률과 의미론적 중요성 간의 연관성을 밝혀내고, 낮은 확률의 토큰을 선택적으로 마스킹하여 표면적인 과적합을 방지하는 ProFit 방법을 제안합니다. ProFit은 일반 추론 및 수학 벤치마크에서 기존 SFT보다 우수한 성능을 보였습니다.

### 🔑 시사점 및 한계

- LLM의 SFT 시 단일 참조 답변에 대한 과적합 문제를 완화하는 효과적인 방법론을 제시합니다.

- 토큰의 확률적 특성을 활용하여 의미적으로 중요한 정보에 집중함으로써 효율적인 미세 조정을 가능하게 합니다.

- 제안된 방법론의 효과가 특정 벤치마크에 국한될 수 있으며, 다양한 종류의 LLM 및 작업에 대한 일반화 가능성을 추가적으로 검증할 필요가 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2601.09195)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
