Sign In

Teach-to-Reason with Scoring: Self-Explainable Rationale-Driven Multi-Trait Essay Scoring

Created by
  • Haebom
Category
Empty

저자

Heejin Do, Sangwon Ryu, Gary Geunbae Lee

개요

본 논문은 다양한 측면을 세밀하게 평가하는 다중 특성 자동 에세이 채점(AES) 시스템의 투명성을 높이기 위해, 자기 설명 가능한 근거 기반 다중 특성 자동 에세이 채점(RaDME) 프레임워크를 제안합니다. RaDME는 대규모 언어 모델(LLM)의 추론 능력을 활용하여 작지만 효과적인 채점 모델을 생성합니다. 이 모델은 특성 점수와 그에 대한 근거를 순차적으로 생성하도록 최적화되어, 훈련 중에 후속 근거를 고려하여 더욱 정당화 가능한 점수를 선택하도록 학습합니다. 실험 결과, LLM은 직접적인 AES 작업에서는 성능이 저조하지만, 정확한 수치 점수가 주어지면 근거 생성에 탁월함을 보여줍니다. 따라서 RaDME는 LLM의 우수한 추론 능력과 최적화된 소형 모델의 견고한 채점 정확도를 통합합니다. 광범위한 실험을 통해 RaDME가 정확하고 적절한 추론을 달성하면서 고품질의 다중 특성 채점을 지원하여 AES의 투명성을 크게 향상시킨다는 것을 보여줍니다.

시사점, 한계점

시사점:
LLM의 추론 능력을 활용하여 AES의 투명성을 높이는 새로운 프레임워크(RaDME) 제시.
정확한 점수와 근거를 동시에 제공하여 AES에 대한 신뢰도 향상.
다중 특성 채점에서 정확도와 설명 가능성을 동시에 달성.
교육자와 학습자에게 AES 결과에 대한 이해도 증진.
한계점:
LLM의 직접적인 AES 작업 성능 저하 문제. (RaDME는 이를 해결하기 위한 방안을 제시하지만, LLM 자체의 한계는 여전히 존재할 수 있음)
RaDME의 성능은 LLM과 소형 모델의 성능에 의존적임. LLM의 질과 소형 모델의 최적화 정도에 따라 성능 차이 발생 가능성 존재.
다양한 에세이 유형과 언어에 대한 일반화 성능 평가 필요.
근거의 질적 평가에 대한 추가적인 연구 필요. (단순히 근거가 존재하는 것만으로 충분한가? 근거의 설득력, 타당성 등에 대한 측정 필요)
👍