본 논문은 에지 디바이스에서 구축 가능한 소형 언어 모델(small language model)의 평가 및 개선을 위해 설계된 새로운 데이터셋과 평가 벤치마크를 제시합니다. 스마트홈 환경에서의 다중 세션 자연어 상호작용을 통한 사용자 프로파일링에 초점을 맞추고 있습니다. 데이터셋의 핵심은 사용자의 행동 패턴을 나타내는 일련의 루틴으로 정의된 구조화된 사용자 프로파일입니다. 이 프로파일을 입력으로 사용하여 대규모 언어 모델(LLM)이 사용자와 기기 간의 현실적이고 다양하며 맥락을 인식하는 대화를 시뮬레이션하는 상호작용 세션을 생성합니다. 주요 과제는 상호작용 기록만으로 사용자 루틴과 선호도를 추론하는 프로파일 재구성입니다. 현실적인 조건에서 최신 소형 언어 모델의 성능을 평가하기 위해 여러 최첨단 소형 언어 모델을 벤치마킹하고 대규모 기초 모델과 성능을 비교했습니다. 결과는 소형 모델이 프로파일 재구성에 어느 정도의 능력을 보이지만, 사용자 행동을 정확하게 포착하는 데 있어 대규모 모델에 크게 미치지 못함을 보여줍니다. 이러한 성능 차이는 개인 정보 보호, 지연 시간 최소화, 클라우드 의존성 없는 개인화된 경험 제공 등의 장점을 제공하는 온디바이스 처리의 중요성을 고려할 때 중요한 과제입니다. 본 논문에서 제시하는 현실적이고 구조화된 테스트베드는 이러한 제약 조건 하에서 행동 모델링을 개발 및 평가하는 데 중요한 단계가 될 것입니다.