Sign In

Beyond Function-Level Search: Repository-Aware Dual-Encoder Code Retrieval with Adversarial Verification

Created by
  • Haebom
Category
Empty

저자

Aofan Liu, Shiyuan Song, Haoxuan Li, Cehao Yang, Yiyan Qi

개요

현대 코드베이스의 복잡성 증가로 인해, 구성 요소 간의 변경 의도를 해석할 수 있는 검색 시스템의 필요성이 커지고 있습니다. 기존의 함수 수준 검색 방식은 이러한 기능을 갖추지 못하고 있습니다. 본 논문은 변경 요청에 대한 상황에 맞는 코드를 검색하는 연구의 부족을 해결하기 위해, 52,000개의 주석 인스턴스를 포함하는 저장소 수준 코드 검색 벤치마크인 RepoAlign-Bench를 소개합니다. 또한, 코드_인코더와 문서_인코더 구성 요소를 특징으로 하는 적대적 반사 증강 듀얼 타워 아키텍처인 ReflectCode를 제안합니다. ReflectCode는 대규모 언어 모델 기반 반사를 통해 구문 패턴, 함수 종속성 및 의미 확장 의도를 동적으로 통합합니다. 실험 결과, ReflectCode는 최첨단 기준선 대비 Top-5 정확도에서 12.2%, 재현율에서 7.1% 향상을 보였습니다.

시사점, 한계점

RepoAlign-Bench를 통해 저장소 수준 코드 검색에 대한 새로운 평가 기준 제시
ReflectCode 아키텍처는 컨텍스트 인식 코드 검색의 새로운 방향 제시
ReflectCode는 기존 모델 대비 성능 향상
벤치마크의 규모와 다양성, 그리고 실험 결과에 대한 추가 분석 필요
ReflectCode의 성능은 대규모 언어 모델의 사용에 의존하므로, 모델 크기 및 계산 비용에 대한 고려 필요
👍