대규모 언어 모델(LLM)은 멀티턴 대화에 널리 사용되지만, 고정된 컨텍스트 윈도우와 단순한 메모리 전략에 의해 제약받고 있습니다. 모든 턴마다 전체 대화를 다시 재생하는 것은 간단하지만 비용이 많이 들고, 정적 요약이나 최근성 기반 휴리스틱은 안전에 중요한 사용자 세부 정보를 종종 삭제합니다. 본 논문은 현재 쿼리에 대한 의미론적 유사성, 반감기 최근성 가중치, 중요도 분류를 기반으로 각 과거 메시지에 FULL, COMPRESSED, PLACEHOLDER의 세 가지 충실도 수준 중 하나를 할당하는 동적 컨텍스트 관리자인 Adaptive Focus Memory (AFM)를 제시합니다. AFM은 엄격한 토큰 예산 하에 메시지를 시간순으로 묶어, 가장 관련성이 높은 턴에 높은 충실도를 부여하고 대화의 저렴한 추적을 유지하는 것을 목표로 합니다. 심각한 땅콩 알레르기가 있는 사용자가 태국 여행을 계획하는 안전 지향적 벤치마크에서 AFM은 짧고 중간 길이의 대화 모두에서 알레르기를 유지하며, 단순 재생의 안전 성능과 일치하고, 재생 기준선 대비 평균 토큰 사용량을 66% 줄입니다. OpenAI 호환 API 및 오프라인 작동을 위해 설계된 AFM의 모듈식 Python 구현을 출시하여, 평가된 시나리오에서 안전성이나 사실적 연속성을 희생하지 않고 추론 비용을 줄일 수 있도록 했습니다.