본 논문은 대규모 언어 모델(LLM)의 출력을 통해 입력을 정확하게 재구성하는 새로운 기법인 SODA를 제안합니다. 기존 감사 기법들이 LLM의 원치 않는 행동을 식별하는 데 초점을 맞춘 것과 달리, 본 논문은 LLM 출력으로부터 입력을 재구성하는 포렌식 문제를 다룹니다. SODA는 이를 이산 최적화 문제로 공식화하고, 연속적인 완화 기법과 주기적인 재시작 및 매개변수 감쇠를 사용하는 효율적인 기울기 기반 알고리즘을 제시합니다. 다양한 크기의 LLM(33M~3B 파라미터)에 대한 실험을 통해 SODA가 기존 기법보다 우수함을 보여줍니다. 짧은 out-of-distribution 입력의 경우 79.5%의 정확도로 재구성에 성공했으나, 15개 이상의 토큰으로 구성된 긴 입력의 경우 개인 정보 추출에 어려움을 보였습니다.