[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Advancing Retrieval-Augmented Generation for Structured Enterprise and Internal Data

Created by
  • Haebom

저자

Chandana Cheerla

개요

본 논문은 기업의 의사결정에 필수적인 HR 기록, 구조화된 보고서, 표 형태의 문서 등 기업 고유 데이터를 활용하는 고급 RAG(Retrieval-Augmented Generation) 프레임워크를 제안한다. 기존 RAG 프레임워크의 한계인 정적 사전 훈련, 짧은 컨텍스트 창, 이질적인 데이터 형식 처리 문제를 해결하기 위해, dense embeddings (all-mpnet-base-v2)와 BM25를 결합한 하이브리드 검색 전략, SpaCy NER을 이용한 메타데이터 기반 필터링, 크로스 인코더 재순위 지정 등을 적용하였다. 또한, 의미 단위 청크화, 표 데이터 구조 유지, 양자화 색인, 사용자 피드백 및 대화 기억 기능을 통해 성능을 향상시켰다. 기업 데이터셋 실험 결과, Precision@5는 15%, Recall@5는 13%, 평균 역순위는 16% 향상되었으며, 정확성, 완전성, 관련성 측면에서도 질적 향상을 보였다. 향후 다중 모달 데이터 확장 및 에이전트 기반 검색 통합을 계획하고 있으며, 소스 코드는 공개될 예정이다.

시사점, 한계점

시사점:
기업 내부 데이터를 효과적으로 활용하는 고급 RAG 프레임워크 제시
하이브리드 검색 전략, 메타데이터 필터링, 의미 단위 청크화 등을 통해 기존 RAG의 한계 극복
정확성, 완전성, 관련성이 향상된 응답 제공
양자화 색인을 통한 검색 효율 향상
사용자 피드백 및 대화 기억 기능을 통한 적응력 향상
실험 결과를 통해 성능 향상을 정량적으로 증명
한계점:
현재는 기업 내부 데이터에 국한된 연구. 다양한 데이터 유형 및 규모에 대한 일반화 필요
다중 모달 데이터 및 에이전트 기반 검색은 미래 연구 과제로 남아있음
실험 데이터셋 및 평가 지표의 구체적인 정보 부족
특정 기업 데이터셋에 최적화되어 다른 환경에서의 일반성이 제한적일 수 있음
👍