Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DUALGUAGE: Automated Joint Security-Functionality Benchmarking for Secure Code Generation

Created by
  • Haebom
Category
Empty

저자

Abhijeet Pathak, Suvadra Barua, Dinesh Gudimetla, Rupam Patir, Jiawei Guo, Hongxin Hu, Haipeng Cai

개요

본 논문은 대규모 언어 모델(LLM)과 자율 코딩 에이전트가 생성한 코드의 보안과 정확성을 동시에 평가하는 자동화된 벤치마킹 프레임워크인 DUALGAUGE를 제안합니다. 기존의 보안 코드 생성 평가 방식의 한계를 극복하기 위해, DUALGAUGE는 보안과 기능성을 함께 평가하는 DUALGAUGE-BENCH라는 벤치마크 스위트를 개발했습니다. DUALGAUGE는 샌드박스 환경에서 프로그램을 실행하는 에이전트 기반 프로그램 실행기와 LLM 기반 평가자를 사용하여 정확성과 취약성 모두를 평가합니다. 본 연구는 DUALGAUGE와 DUALGAUGE-BENCH의 품질을 검증하고, 10개의 주요 LLM을 대상으로 테스트를 수행하여 LLM의 보안 및 정확한 코드 생성 능력의 격차를 보여주었습니다.

시사점, 한계점

시사점:
보안과 기능성을 동시에 평가하는 새로운 벤치마킹 프레임워크 DUALGAUGE를 제시하여, LLM 기반 코드 생성의 실질적인 성능 평가 가능성을 제시함.
수동 검증된 테스트 스위트를 포함하는 DUALGAUGE-BENCH를 개발하여, 다양한 코딩 작업에 대한 정확하고 포괄적인 평가를 제공함.
DUALGAUGE를 활용하여 주요 LLM의 보안 및 정확성 문제점을 발견하고, 개선 방향을 제시함.
오픈 소스 시스템과 데이터셋을 공개하여 재현 가능하고 확장 가능한 평가를 지원하여 관련 연구의 발전을 가속화함.
한계점:
연구 대상 LLM의 종류가 제한적일 수 있음.
DUALGAUGE-BENCH의 코딩 작업 및 테스트 스위트의 범위가 모든 유형의 보안 문제와 기능적 요구 사항을 완벽하게 포괄하지 못할 수 있음.
LLM 기반 평가자의 정확성에 한계가 있을 수 있으며, 평가 결과의 신뢰도에 영향을 미칠 수 있음.
👍