본 논문은 오픈소스 및 비용 효율적인 대규모 언어 모델(LLM)의 서빙 확장성 문제, 특히 소규모 조직 및 개인이 LLM 혁신을 배포하고 테스트하는 데 어려움을 겪는 문제를 해결하기 위해, 분산된 참여자들의 컴퓨팅 자원을 활용하는 LLM 서빙 오버레이인 GenTorrent를 제안한다. GenTorrent은 P2P 네트워크에서 영감을 얻었으며, 오버레이 네트워크 구성, LLM 통신 프라이버시, 자원 효율적인 오버레이 전달, 서빙 품질 검증 등 네 가지 핵심 연구 문제를 다룬다. 분산 노드 집합에 구현된 프로토타입의 평가 결과, GenTorrent는 오버레이 전달이 없는 기준 설계와 비교하여 대기 시간을 50% 이상 줄였으며, 보안 기능은 서빙 대기 시간과 처리량에 미미한 오버헤드만 발생시킨다는 것을 보여준다. 이 연구는 미래의 AI 서빙 기능을 민주화하고 확장하는 새로운 방향을 제시한다.