Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging

Created by
  • Haebom
Category
Empty

저자

Siyuan Li, Kai Yu, Anna Wang, Zicheng Liu, Chang Yu, Jingbo Zhou, Qirong Yang, Yucheng Guo, Xiaoming Zhang, Stan Z. Li

개요

본 논문은 정보 밀도가 지역에 따라 크게 다르고 명확하게 정의된 최소 어휘 단위가 없는 유전체 서열 모델링의 두 가지 문제에 초점을 맞춥니다. MergeDNA라는 계층적 아키텍처를 도입하여 동적 유전체 토크나이저와 컨텍스트 인식 사전 훈련 작업을 수행하는 잠재적 Transformer를 공동으로 최적화합니다. MergeDNA는 Token Merging 기술을 활용하여 인접한 염기를 단어로 자동 청크화하는 토큰화 모듈과, 병합된 단어의 글로벌 컨텍스트를 캡처하는 잠재적 인코더를 사용합니다. 두 개의 사전 훈련 작업(Merged Token Reconstruction 및 Adaptive Masked Token Modeling)을 통해 동적 토큰화 모듈을 훈련하고 중요 토큰을 적응적으로 필터링하며, 필터링된 토큰을 예측하여 유익한 내용을 캡처합니다. 실험 결과, MergeDNA는 세 가지 인기 있는 DNA 벤치마크 및 여러 멀티 오믹스 작업에서 우수한 성능을 보이며, 전형적인 토큰화 방법과 대규모 DNA 기반 모델보다 뛰어납니다.

시사점, 한계점

시사점:
MergeDNA는 동적 토크나이저와 잠재적 Transformer를 결합하여 유전체 서열 모델링의 성능을 향상시켰습니다.
Token Merging 기술을 활용하여 복잡한 유전체 서열의 다양한 정보 밀도에 적응할 수 있습니다.
MergeDNA는 다양한 DNA 벤치마크 및 멀티 오믹스 작업에서 우수한 성능을 보였습니다.
한계점:
논문에서 구체적인 한계점이 명시되지 않았습니다. (아마도 더 자세한 분석이나 추가적인 데이터셋에 대한 실험 부족 등이 있을 수 있음)
👍