HypotheSAEs는 텍스트 데이터(예: 헤드라인)와 목표 변수(예: 클릭 수) 간의 해석 가능한 관계를 가설화하는 일반적인 방법입니다. 세 단계로 구성됩니다. 첫째, 텍스트 임베딩에 대한 스파스 오토인코더를 훈련하여 데이터 분포를 설명하는 해석 가능한 특징을 생성합니다. 둘째, 목표 변수를 예측하는 특징을 선택합니다. 셋째, LLM을 사용하여 각 특징에 대한 자연어 해석(예: "놀라거나 충격을 받았다는 언급")을 생성합니다. 각 해석은 목표 변수를 예측하는 것에 대한 가설로 작용합니다. 기준선과 비교하여 HypotheSAEs는 합성 데이터 세트에서 참조 가설을 더 잘 식별하고(F1에서 최소 +0.06 향상), 실제 데이터 세트에서 더 예측력 있는 가설을 생성합니다(유의미한 결과가 약 2배 증가). 최근 LLM 기반 방법보다 1~2 자릿수 적은 계산량을 필요로 합니다. 또한, 의회 연설에서 당파적 차이를 설명하고 온라인 헤드라인에 대한 참여 동인을 식별하는 두 가지 잘 연구된 과제에 대한 새로운 발견을 제시합니다.