Less Context, Same Performance: A RAG Framework for Resource-Efficient LLM-Based Clinical NLP
Created by
Haebom
저자
Satya Narayana Cheetirala, Ganesh Raut, Dhavalkumar Patel, Fabio Sanatana, Robert Freeman, Matthew A Levin, Girish N. Nadkarni, Omar Dawkins, Reba Miller, Randolph M. Steinhagen, Eyal Klang, Prem Timsina
개요
본 연구는 토큰 제한 및 높은 계산 비용으로 인해 장문 텍스트 분류가 대규모 언어 모델(LLM)에 어려운 과제임을 다룹니다. 연구는 가장 관련성이 높은 텍스트 구간만을 사용하는 검색 증강 생성(RAG) 접근 방식이 장문 컨텍스트 LLM을 사용하여 전체 임상 기록을 처리하는 것과 동등한 성능을 낼 수 있는지 여부를 조사합니다. 임상 문서를 작은 청크로 나누고 벡터 임베딩으로 변환하여 FAISS 색인에 저장하는 방식을 사용합니다. 그런 다음 분류 쿼리와 가장 관련성이 높은 상위 4,000단어를 검색하여 이러한 통합된 구간을 LLM에 입력합니다. 수술 합병증 식별 작업에서 세 가지 LLM(GPT4o, LLaMA, Mistral)을 평가했습니다. AUC ROC, 정밀도, 재현율 및 F1과 같은 지표는 RAG 기반 접근 방식과 전체 텍스트 처리 간에 통계적으로 유의미한 차이가 없음을 보여주었습니다(p > 0.05). 이러한 결과는 RAG가 토큰 사용량을 크게 줄이면서 분류 정확도를 유지할 수 있음을 나타내며, 긴 임상 문서를 분석하기 위한 확장 가능하고 비용 효율적인 솔루션을 제공합니다.
시사점, 한계점
•
시사점: RAG 기반 접근 방식은 장문 텍스트 분류에서 전체 텍스트 처리와 동등한 성능을 제공하면서 토큰 사용량과 계산 비용을 크게 줄일 수 있습니다. 이는 대규모 임상 데이터 분석을 위한 효율적이고 확장 가능한 솔루션을 제시합니다.
•
한계점: 본 연구는 특정 유형의 임상 데이터(수술 합병증 식별)와 제한된 수의 LLM에 대해서만 평가되었습니다. 다른 유형의 데이터나 LLM에 대한 일반화 가능성은 추가 연구가 필요합니다. p > 0.05의 결과는 통계적 유의미성이 없다는 것을 의미하지만, 효과 크기 분석을 통해 RAG의 실질적 효용성을 더 자세히 검토할 필요가 있습니다. 또한, 최적의 청크 크기 및 상위 단어 수에 대한 추가적인 연구가 필요합니다.