본 논문은 기존 AI 벤치마크의 한계점인 인간-AI 협업의 복잡하고 다회차적인 특성을 고려하지 못하는 점을 지적하며, 실제 세계 작업을 상호 의존적인 하위 작업으로 분해하여 LLM 성능과 사용자 전략을 대화 전반에 걸쳐 추적하는 평가 프레임워크를 제시한다. 이 프레임워크를 보완하기 위해 의미적 유사성, 단어 중복, 수치 일치에서 파생된 복합 사용량, 구조적 일관성, 턴 내 다양성, 그리고 AI 출력과 사용자의 작업 지식 간의 정합성을 반영하는 새로운 "정보 경계" 측정값을 포함한 일련의 지표를 개발하였다. 금융 평가 작업을 통해 실제 세계의 복잡성을 반영하는 실증적 결과를 제시하며, LLM이 생성한 콘텐츠의 통합이 출력 품질을 향상시키지만, 응답의 불일치, 과도한 하위 작업 다양성, 제공된 정보와 사용자의 기존 지식 간의 거리와 같은 요소에 의해 그 이점이 완화될 수 있음을 보여준다. 결과적으로, 참신성을 주입하기 위한 사전적인 대화 전략이 작업 성능을 저해할 수 있음을 시사한다. 따라서 본 연구는 인간-AI 협업에 대한 보다 포괄적인 평가를 발전시키고, 더 효과적인 AI 지원 작업 프로세스를 개발하기 위한 실행 가능한 통찰력을 제공한다.