본 논문은 소스 코드의 취약점 탐지를 향상시키기 위해 법정을 모방한 다중 에이전트 프레임워크인 VulTrial을 제안합니다. VulTrial은 보안 연구자, 코드 작성자, 중재자, 심사위원의 네 가지 역할을 가진 에이전트를 사용하며, GPT-3.5와 GPT-4를 이용한 실험을 통해 단일 에이전트 및 기존 다중 에이전트 기법보다 우수한 성능을 보임을 입증합니다. 특히 GPT-4를 사용한 VulTrial은 기준 모델 대비 성능을 102.39% 및 84.17% 향상시켰고, 소량의 데이터(50쌍의 샘플)를 사용한 역할별 지시어 미세 조정을 통해 성능을 추가적으로 139.89% 및 118.30% 향상시켰습니다. 또한, 에이전트 상호 작용 횟수 증가가 VulTrial 성능에 미치는 영향을 분석하여, GPT-3.5와 같은 비용 효율적인 모델에 적용하면 GPT-4 단일 에이전트 설정보다 69.89% 향상된 성능을 더 낮은 비용으로 달성할 수 있음을 보여줍니다.