Sign In

Hints-In-Browser: Benchmarking Language Models for Programming Feedback Generation

Created by
  • Haebom
Category
Empty

저자

Nachiket Kotalwar, Alkis Gotovos, Adish Singla

개요

본 논문은 생성형 AI와 대규모 언어 모델을 활용한 프로그래밍 교육 개선에 초점을 맞추고 있습니다. 기존 연구들이 주로 생성된 피드백의 질 향상에 집중한 것과 달리, 본 논문은 실제 교육 환경 배포를 위해 품질, 비용, 시간, 데이터 프라이버시 등 여러 성능 기준을 종합적으로 평가합니다. 특히 브라우저 내 추론(in-browser inference)을 활용하여 비용과 데이터 프라이버시 문제를 해결하고, 브라우저 내 추론 엔진과 호환 가능한 소형 모델의 피드백 품질 향상을 위해 GPT-4 기반의 합성 데이터를 이용한 미세 조정 파이프라인을 개발했습니다. Llama3-8B 및 Phi3-3.8B 4-bit 양자화 모델을 세 가지 Python 프로그래밍 데이터셋에 적용하여 효과를 보였으며, 웹 앱 및 데이터셋과 함께 전체 구현을 공개하여 추가 연구를 지원합니다.

시사점, 한계점

시사점:
브라우저 내 추론을 활용하여 생성형 AI 기반 프로그래밍 교육 시스템의 비용 및 데이터 프라이버시 문제 해결 가능성 제시.
소형 모델의 성능 향상을 위한 효과적인 미세 조정 파이프라인 제시.
실제 교육 환경 적용을 위한 다양한 성능 기준(품질, 비용, 시간, 데이터 프라이버시) 고려.
웹 앱 및 데이터셋 공개를 통한 후속 연구 지원.
한계점:
사용된 데이터셋의 범위 및 일반화 가능성에 대한 추가 연구 필요.
다양한 프로그래밍 언어 및 교육 환경에 대한 적용 가능성 검증 필요.
GPT-4를 사용한 합성 데이터 생성의 신뢰성 및 한계에 대한 논의 필요.
브라우저 내 추론의 성능 제약 및 사용자 환경에 대한 고려 필요.
👍