본 연구는 대규모 언어 모델(LLM)을 실제 세계 과제, 특히 프리랜서 소프트웨어 개발에 적용하는 것을 탐구합니다. Kaggle 프리랜서 데이터셋의 일자리 게시물을 기반으로 생성된 합성 과제를 사용하여 새로운 벤치마크를 제시합니다. 모든 과제는 USD로 표준화된 가격(중간 고정 프로젝트 가격 약 $250, 평균 $306)이 책정되어 있으며, 구조화된 입력-출력 테스트 케이스가 함께 제공되어 자동화된 정확성 검사 및 금전적 성과 평가가 가능합니다. Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5, Mistral 네 가지 최신 LLM을 평가하여 정확도(과제 성공률 및 테스트 케이스 통과율)와 총 "프리랜서 수입"(해결된 과제 가격의 합계)을 측정했습니다. Claude 3.5 Haiku가 약 152만 달러로 가장 높은 수입을 올렸고, GPT-4o-mini(149만 달러), Qwen 2.5(133만 달러), Mistral(70만 달러)이 뒤를 이었습니다. 과제별 오류 분포를 분석하여 강력한 모델일수록 더 많은 과제를 해결하고 프로젝트에서 완전히 실패하는 경우가 드물다는 것을 확인했습니다. AI의 프리랜서 개발자로서의 실현 가능성, 자동화된 벤치마크 접근 방식의 장단점, 그리고 구조화된 과제에서의 성능과 실제 세계 프리랜서 작업의 복잡성 간의 차이점에 대해 논의합니다.