본 논문은 화학적 설명에 사용되는 전통적인 화학 작용기의 유용성에 대한 최초의 대규모 공식 평가를 소개한다. 데이터에 대한 훌륭한 설명은 데이터를 압축해야 한다는 계산 학습 이론의 기본 원리를 활용하여, 약 3백만 개의 생물학적으로 관련된 분자를 압축하는 하위 구조를 검색하는 최소 메시지 길이(MML) 원리에 기반한 비지도 학습 알고리즘을 제안한다. 발견된 하위 구조는 대부분의 사람이 큐레이션한 작용기와 더 구체적인 기능을 가진 새로운 더 큰 패턴을 포함한다. 또한, 24개의 특정 생물 활성 예측 데이터 세트에 알고리즘을 적용하여 데이터 세트별 작용기를 발견했다. 데이터 세트별 작용기로 구성된 지문은 생물 활성 회귀 작업에서 릿지 회귀 모델을 훈련할 때 MACCS 및 Morgan 지문을 포함한 다른 지문 표현보다 훨씬 뛰어난 성능을 보였다.