본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 방법인 '그룹 싱크(Group Think)'를 제안합니다. 그룹 싱크는 하나의 LLM 내에서 여러 개의 추론 에이전트(thinker)를 동시에 작동시켜, 토큰 단위의 미세한 협업을 통해 추론 과정을 병렬적으로 진행합니다. 기존의 턴 기반 방식과 달리, 그룹 싱크는 에이전트 간의 부분 생성 과정을 공유하여 중복된 추론을 줄이고, 다른 에이전트의 진행 상황에 따라 실시간으로 추론 방향을 조정합니다. 이를 통해 추론 품질을 향상시키면서도 지연 시간을 크게 단축하고, 특히 소규모 배치 크기로 인해 GPU 활용도가 낮은 에지 환경에서 효율적인 연산 자원 활용을 가능하게 합니다. 본 논문에서는 기존 LLM에 그룹 싱크 기능을 추가하는 간단하고 일반화 가능한 방법을 제시하고, 오픈소스 LLM을 사용하여 지연 시간 개선 효과를 실험적으로 증명합니다.