Sign In

Is Your Prompt Poisoning Code? Defect Induction Rates and Security Mitigation Strategies

Created by
  • Haebom
Category
Empty

저자

Bin Wang, YiLu Zhong, MiDi Wan, WenJie Yu, YuanBing Ouyang, Yenan Huang, Hui Li

개요

대규모 언어 모델(LLM)은 자동 코드 생성에 필수적이지만, 생성된 코드의 품질과 보안은 여전히 중요한 문제이다. 기존 연구는 적대적 공격이나 모델 내부의 결함에 집중했지만, 이 논문은 양호하지만 제대로 구성되지 않은 프롬프트의 품질이 생성된 코드의 보안에 미치는 영향에 주목한다. 이를 위해 목표 명확성, 정보 완전성, 논리적 일관성의 세 가지 주요 차원을 포함하는 프롬프트 품질 평가 프레임워크를 제안하고, 이를 기반으로 4가지 규범성 수준(L0-L3)으로 분류된 프롬프트를 포함하는 대규모 벤치마크 데이터세트 CWE-BENCH-PYTHON을 구축 및 공개했다. 여러 최첨단 LLM에 대한 광범위한 실험 결과, 프롬프트 규범성이 감소함에 따라 안전하지 않은 코드가 생성될 가능성이 일관되고 현저하게 증가하는 상관관계가 나타났다. 또한, Chain-of-Thought 및 Self-Correction과 같은 고급 프롬프트 기술이 저품질 프롬프트로 인한 보안 위험을 효과적으로 완화하여 코드 안전성을 크게 향상시킬 수 있음을 입증했다.

시사점, 한계점

시사점:
사용자 프롬프트의 품질 향상이 AI가 생성한 코드의 보안을 강화하는 데 중요한 전략임을 시사한다.
저품질 프롬프트가 코드 보안에 미치는 부정적인 영향을 실증적으로 보여주었다.
Chain-of-Thought 및 Self-Correction과 같은 프롬프트 기술이 저품질 프롬프트로 인한 보안 위험을 완화하는 데 효과적임을 입증했다.
한계점:
구체적인 한계점은 논문에 명시되지 않음. (논문의 요약에서 한계점을 직접적으로 언급하지 않았음.)
👍