Compute Aligned Training: Optimizing for Test Time Inference

작성자

Haebom

카테고리

Empty

저자

Adam Ousherovitch, Ambuj Tewari

💡 개요

본 논문은 대규모 언어 모델(LLM)의 테스트 시점 추론 성능을 향상시키기 위해 훈련 목표를 테스트 시점 전략과 일치시키는 'Compute Aligned Training' 방법을 제안합니다. 기존의 SFT 및 RL 방식이 개별 샘플의 가능성을 최적화하는 것과 달리, 제안된 방법은 추론 전략을 기본 정책에 대한 연산자로 개념화하여 해당 전략 적용 시 성능을 극대화하는 새로운 손실 함수를 도출합니다. 이를 통해 테스트 시점에서의 성능 향상이 표준 훈련 방식보다 훨씬 뛰어나다는 것을 경험적으로 입증했습니다.

🔑 시사점 및 한계

•

LLM의 테스트 시점 추론 전략을 훈련 과정에 직접 통합하여 실질적인 성능 향상을 이끌어낼 수 있습니다.

•

다양한 테스트 시점 전략(예: 집계, 필터링)에 맞춰 훈련 목표를 조정함으로써 LLM의 범용성을 높일 수 있습니다.

•

제안된 손실 함수 설계 및 검증이 다양한 LLM 아키텍처 및 복잡한 추론 전략에 대해서도 확장될 수 있을지에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage