본 논문은 대규모 언어 모델(LLM)의 정렬 작업 수행 능력을 평가하기 위한 새로운 벤치마크인 SortBench를 제시합니다. SortBench는 다양한 난이도를 가지며 난이도 조절이 용이하도록 설계되었습니다. 논문에서는 SortBench를 이용하여 7개의 최첨단 LLM을 평가했으며, 입력 데이터의 충실도, 값 비교의 논리성, 구문과 의미의 구분 등 LLM의 약점이 정렬 작업에서도 드러남을 확인했습니다. 특히, 숫자를 단어로 표기하는 등 구문과 의미를 혼합하는 경우에는 o3-mini 모델과 같이 우수한 성능을 보이는 모델도 오류를 발생시키는 것으로 나타났습니다. 또한, 모든 모델에서 긴 목록을 처리할 때 항목 누락 및 추가와 같은 입력 데이터 충실도 문제가 발생했으며, 테스트 시 추론(test-time reasoning)은 오히려 성능 저하를 야기하는 경향이 있음을 발견했습니다. 마지막으로, GPT-4o처럼 테스트 시 추론 기능이 없는 모델이 추론 기능이 있는 모델보다 성능이 크게 떨어지지 않는다는 점도 확인했습니다.