Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Handling Symbolic Language in Student Texts: A Comparative Study of NLP Embedding Models

Created by
  • Haebom

저자

Tom Bleckmann, Paul Tschisgale

개요

본 논문은 자연어 처리(NLP) 임베딩 모델을 활용한 학습 분석(LA)에서 과학 관련 언어, 특히 방정식과 수식과 같은 기호적 표현 처리의 어려움을 다룹니다. 기존 연구들은 이러한 기호적 표현을 무시하거나 제거하는 경향이 있었는데, 이는 LA 애플리케이션의 성능 저하 및 편향된 결과를 초래할 수 있습니다. 따라서 본 연구는 다양한 임베딩 모델들의 과학 관련 기호 표현 처리 능력을 비교 분석합니다. 물리학 관련 학생 답변에서 추출한 기호적 표현을 사용하여 유사성 분석 및 머신러닝 파이프라인 통합 방식으로 모델 성능을 평가하였고, 그 결과 OpenAI의 GPT-text-embedding-3-large 모델이 다른 모델들보다 우수한 성능을 보였으나, 그 차이가 압도적이지는 않았음을 밝혔습니다. 모델 선택 시 성능 외에도 비용, 규제 준수, 모델 투명성 등도 중요한 고려 사항임을 강조합니다.

시사점, 한계점

시사점: 과학 관련 언어 및 기호적 표현을 포함하는 학습 분석에 적합한 NLP 임베딩 모델 선택의 중요성을 강조합니다. OpenAI의 GPT-text-embedding-3-large 모델이 상대적으로 우수한 성능을 보였으나, 모델 선택 시 성능뿐 아니라 비용, 규제 준수, 투명성 등을 고려해야 함을 시사합니다.
한계점: OpenAI의 GPT-text-embedding-3-large 모델의 우수성이 압도적이지 않았다는 점, 그리고 평가에 사용된 데이터셋이 물리학 분야에 국한되었다는 점이 한계로 지적될 수 있습니다. 다양한 과학 분야 및 더 광범위한 데이터셋을 사용한 추가 연구가 필요합니다.
👍