본 논문은 대규모 언어 모델(LLM)의 출력물을 인간의 선호도에 맞추기 위한 새로운 방법론인 Textual Self-Attention Network (TSAN)을 제안한다. TSAN은 별도의 파라미터 업데이트 없이, 여러 후보 응답의 강점을 분석, 평가, 종합하여 선호도에 부합하는 응답을 생성한다. 이는 텍스트 기반 자기-주의(self-attention) 메커니즘을 활용하며, 여러 후보 응답을 텍스트 형식으로 변환하여 분석하고, LLM 기반 주의 모듈을 통해 관련성을 평가하며, 최적의 응답을 생성하는 과정을 거친다. TSAN은 Llama-3.1-70B-Instruct와 같은 지도 학습 모델을 능가하며, 최첨단 테스트 시간 정렬 방법론보다 효과적인 성능을 보였다.