본 논문은 인간-거대언어모델(LLM) 협업을 통한 경쟁 프로그래밍 분야에서 기존 연구들의 단편적인 특성과 다양한 응용 프로그램 특정 인간 피드백 사용으로 인해 포괄적인 이해가 부족하다는 점을 지적합니다. 이에 세 가지 목표를 제시합니다. 첫째, 전체 프로그래밍 프로세스를 통합하는 인간 피드백 분류 체계를 제시하여 세분화된 평가를 가능하게 합니다. 둘째, 인간-LLM 협업을 위해 특별히 설계된 새로운 프로그래밍 데이터셋인 ELABORATIONSET을 소개합니다. 이 데이터셋은 대규모 시뮬레이션된 인간 피드백을 가능하게 하고 비용 효율적인 실제 인간 상호 작용 연구를 용이하게 하도록 세심하게 주석 처리되었습니다. 셋째, 인간-LLM 경쟁 프로그래밍에 대한 철저한 평가를 용이하게 하는 새로운 벤치마크인 ELABORATION을 소개합니다. ELABORATION을 통해 기존 방법의 강점과 약점을 정확히 파악하여 향후 개선을 위한 기반을 마련합니다. 코드와 데이터셋은 https://github.com/SCUNLP/ELABORATION 에서 제공됩니다.