본 연구는 대규모 언어 모델(LLM)의 자연어 기반 구조적 제약 조건 최적화 능력을 평가하기 위해, 21개의 공개 LLM을 이종 고성능 컴퓨팅(HPC) 작업 매핑 및 스케줄링 문제에 적용했습니다. 각 모델은 시스템 노드, 작업 요구 사항 및 스케줄링 제약 조건에 대한 텍스트 설명을 받았고, 작업을 노드에 할당하고, 총 makespan을 계산하며, 추론 과정을 설명해야 했습니다. 수동으로 도출된 최적해(9시간 20초)를 기준으로 평가한 결과, 3개의 모델이 최적해를 정확히 재현했으며, 12개 모델은 최적해에 근접한 결과를, 6개 모델은 부분적인 오류를 보였습니다. 모든 모델이 실행 가능한 작업-노드 매핑을 생성했지만, 절반 정도만이 엄격한 제약 조건을 준수했습니다. 19개 모델은 부분적으로 실행 가능한 검증 코드를 생성했으며, 18개 모델은 논리적 오류가 발생했음에도 일관된 단계별 추론을 제공했습니다.