본 논문은 하드웨어 및 소프트웨어 개발 분야에서 기술 문서의 의미적 검색을 최적화하기 위한 새로운 프레임워크인 Technical-Embeddings를 제시합니다. 대규모 언어 모델(LLM)을 활용하여 복잡한 기술 콘텐츠의 이해 및 검색 과제를 해결하는 데 중점을 둡니다. 사용자 질의를 확장하여 사용자 의도를 더 잘 포착하고 데이터셋 다양성을 향상시켜 임베딩 모델의 미세 조정 과정을 풍부하게 합니다. 또한 요약 추출 기술을 적용하여 기술 문서의 핵심 정보를 인코딩하고 표현을 개선합니다. 소프트 프롬프팅을 사용하여 이중 인코더 BERT 모델을 미세 조정하고, 질의와 문서 맥락에 대해 별도의 학습 매개변수를 사용하여 세밀한 의미적 차이를 포착합니다. RAG-EDA와 Rust-Docs-QA 두 개의 공개 데이터셋에서 평가한 결과, Technical-Embeddings는 기준 모델보다 정밀도와 재현율 모두에서 상당히 우수한 성능을 보였습니다. 이는 기술 분야에서 정보 접근 및 이해를 향상시키기 위해 질의 확장과 맥락 요약을 통합하는 효과를 보여줍니다. 본 연구는 Retrieval-Augmented Generation (RAG) 시스템의 발전을 가져오며, 엔지니어링 및 제품 개발 워크플로우에서 효율적이고 정확한 기술 문서 검색을 위한 새로운 방법을 제시합니다.
시사점, 한계점
•
시사점:
◦
LLM을 활용한 기술 문서 검색 최적화 프레임워크 제시.
◦
질의 확장 및 맥락 요약을 통합하여 검색 성능 향상.
◦
소프트 프롬프팅 기법을 이용한 미세 조정으로 세밀한 의미적 차이 포착.
◦
RAG 시스템 발전에 기여하고 엔지니어링 및 제품 개발 워크플로우 개선 가능성 제시.
◦
RAG-EDA와 Rust-Docs-QA 데이터셋에서 기존 모델 대비 성능 향상을 실험적으로 검증.
•
한계점:
◦
사용된 데이터셋의 범위가 제한적일 수 있음. (RAG-EDA와 Rust-Docs-QA 두 개의 데이터셋만 사용)