본 논문은 소규모 오픈소스 LLM을 활용하여 소프트웨어 엔지니어링 에이전트의 코드 추론 성능을 향상시키는 새로운 프레임워크를 제안합니다. 기존의 대규모 모델에 의존하는 방식 대신, 추론 시간 계산(Test-Time Compute, TTC)을 확장하는 방법을 제시합니다. 이는 내부 TTC 전략(개발 맥락 기반 경로 합성 및 거절 샘플링)과 외부 TTC 전략(개발 프로세스 기반 검색 및 보상 모델)으로 구성됩니다. 내부 전략은 실제 소프트웨어 저장소를 활용하여 다단계 추론 과정(예: 오류 위치 파악 및 패치 생성)을 개선하며, 외부 전략은 중요한 개발 의사결정 지점에 계산 자원을 집중적으로 할당합니다. 실험 결과, 32B 모델이 DeepSeek R1 671B 및 OpenAI o1과 같은 대규모 모델을 능가하는 46%의 문제 해결률을 달성했으며, 모델이 어려운 문제에 더 많은 토큰을 동적으로 할당하는 것을 확인했습니다. 모든 학습 데이터, 모델 및 코드는 공개적으로 제공됩니다.