LLM이 생성한 코드의 버그 문제를 해결하기 위해, CodeX-Verify라는 다중 에이전트 시스템을 개발했습니다. 이 시스템은 4개의 전문화된 에이전트를 사용하여 다양한 유형의 버그를 탐지합니다. 수학적으로, 서로 다른 탐지 패턴을 가진 에이전트들을 결합하면 단일 에이전트보다 더 많은 버그를 발견할 수 있음을 증명했으며, 실제 측정 결과 에이전트 간 상관관계는 p = 0.05~0.25였습니다. 또한, 동일 코드 내 여러 취약점이 전통적인 모델보다 훨씬 더 큰 위험을 초래한다는 것을 밝혔습니다. CodeX-Verify는 99개의 코드 샘플 테스트에서 76.1%의 버그를 탐지하여 기존 최고의 방법과 일치하는 성능을 보였으며, 테스트 실행 없이 더 빠르게 작동합니다. 15가지 에이전트 조합을 테스트한 결과, 다중 에이전트 사용 시 단일 에이전트보다 39.7%p 향상된 정확도를 보였고, 두 개의 에이전트 조합은 79.3%의 정확도를 달성했습니다. 300개의 실제 패치 테스트에서 샘플당 200ms 미만으로 실행되어 실제 사용에 적합함을 확인했습니다.