자율 시스템에서 엣지 인텔리전스 패러다임이 증가함에 따라, 엣지 GPU에서 추론 작업을 수행하는 대규모 언어 모델(LLM) 배포는 지연 시간 제약 및 제한된 계산 자원이라는 과제에 직면합니다. EdgeReasoning은 다양한 LLM 아키텍처와 모델 크기에 걸쳐 지연 시간-정확도 트레이드 오프를 체계적으로 정량화하고, 추론 토큰 길이를 줄이기 위한 프롬프트 기반 및 모델 튜닝 기반 기술을 평가하며, 엄격한 지연 시간 예산 하에서 정확도를 극대화하기 위한 테스트 시간 스케일링 방법을 프로파일링합니다. 이러한 분석을 통해 EdgeReasoning은 달성 가능한 정확도-지연 시간 구성을 파레토 프론티어로 매핑하여 추론 LLM의 최적의 엣지 배포에 대한 체계적인 지침을 제공합니다.