대규모 언어 모델(LLM) 기반의 대화형 에이전트가 일상적인 상호 작용에 필수적인 요소가 되면서 전례 없는 양의 대화 데이터가 생성되고 있습니다. 이러한 데이터셋은 사회적 관심사, 트렌드 토픽, 집단적 우려를 이해하는 데 유용한 통찰력을 제공합니다. 하지만 기존 접근 방식은 이러한 상호 작용을 독립적인 것으로 취급하여 대규모 대화 로그를 집계하고 추론하여 얻을 수 있는 중요한 통찰력을 놓치는 경우가 많습니다. 본 논문에서는 특정 인구 통계 집단 간의 새로운 우려 사항을 식별하는 것과 같은 집계 질의에 답변하기 위해 수천 건의 사용자-챗봇 상호 작용을 명시적으로 추론해야 하는 새로운 작업인 집계 질의응답(Aggregative Question Answering)을 제시합니다. 이러한 연구를 가능하게 하기 위해, 182,330건의 실제 챗봇 대화에서 파생된 6,027개의 집계 질문으로 구성된 벤치마크 WildChat-AQA를 구축했습니다. 실험 결과, 기존 방법은 효과적으로 추론하거나 과도한 계산 비용을 초래하는 데 어려움을 겪는다는 것을 보여주며, 대규모 대화 데이터에서 집단적 통찰력을 추출할 수 있는 새로운 접근 방식의 필요성을 강조합니다.