[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Let the Trial Begin: A Mock-Court Approach to Vulnerability Detection using LLM-Based Agents

Created by
  • Haebom

저자

Ratnadira Widyasari, Martin Weyssow, Ivana Clairine Irsan, Han Wei Ang, Frank Liauw, Eng Lieh Ouh, Lwin Khin Shar, Hong Jin Kang, David Lo

개요

본 논문은 소스 코드의 취약점 탐지를 향상시키기 위해 법정을 모방한 다중 에이전트 프레임워크인 VulTrial을 제안합니다. VulTrial은 보안 연구자, 코드 작성자, 중재자, 심사위원의 네 가지 역할을 가진 에이전트를 사용하며, GPT-3.5와 GPT-4를 이용한 실험을 통해 단일 에이전트 및 기존 다중 에이전트 기법보다 우수한 성능을 보임을 입증합니다. 특히 GPT-4를 사용한 VulTrial은 기준 모델 대비 성능을 102.39% 및 84.17% 향상시켰고, 소량의 데이터(50쌍의 샘플)를 사용한 역할별 지시어 미세 조정을 통해 성능을 추가적으로 139.89% 및 118.30% 향상시켰습니다. 또한, 에이전트 상호 작용 횟수 증가가 VulTrial 성능에 미치는 영향을 분석하여, GPT-3.5와 같은 비용 효율적인 모델에 적용하면 GPT-4 단일 에이전트 설정보다 69.89% 향상된 성능을 더 낮은 비용으로 달성할 수 있음을 보여줍니다.

시사점, 한계점

시사점:
다중 에이전트 접근 방식을 통해 소스 코드 취약점 탐지 성능을 향상시킬 수 있음을 보여줍니다.
역할 기반 에이전트 설계가 효과적임을 실험적으로 증명합니다.
소량의 데이터를 사용한 미세 조정으로도 성능 향상이 가능함을 보여줍니다.
비용 효율적인 모델을 활용하여 성능과 비용 간의 균형을 맞출 수 있는 가능성을 제시합니다.
한계점:
GPT-3.5와 GPT-4와 같은 대규모 언어 모델에 의존하므로, 모델의 한계가 VulTrial의 성능에 영향을 미칠 수 있습니다.
실험 데이터셋의 특성에 따라 성능이 달라질 수 있습니다. 일반화 성능에 대한 추가적인 연구가 필요합니다.
다중 에이전트 상호 작용으로 인한 비용 증가 문제를 완전히 해결하지는 못했습니다. 더욱 효율적인 상호 작용 전략이 필요할 수 있습니다.
👍