본 논문은 대규모 언어 모델(LLM)을 활용한 소프트웨어 엔지니어링 작업의 생산성 향상에 대한 연구입니다. 기존 연구들이 주로 잘 알려진 프롬프팅 패턴과 함수 수준의 작업에 초점을 맞춘 것과 달리, 본 연구는 클래스 수준 이상의 복잡성(예: 다중 클래스 의존성)을 포함하는 실제 작업 흐름에서의 격차를 파악하고 코드 생성에서의 인간-LLM 상호작용(HLI) 프로세스에 영향을 미치는 다양한 요소들을 분석했습니다. 두 가지 프로젝트 수준 벤치마크 작업을 통해 함수 수준 평가를 넘어선 실험을 설계하고, 36명의 참가자를 대상으로 GPT 어시스턴트와 상호작용하여 과제를 해결하도록 했습니다. 스크린 녹화 및 GPT 채팅 로그 분석을 통해 참가자들의 경험과 행동 특징을 조사하여, 15가지 HLI 특징 중 3가지가 코드 생성 생산성에 유의미한 영향을 미치는 것을 밝혔습니다. 또한, HLI 프로세스 생산성 향상을 위한 5가지 주요 지침과 29가지의 런타임 및 논리 오류 분류 및 완화 계획을 제시합니다.