Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Rubric Is All You Need: Enhancing LLM-based Code Evaluation With Question-Specific Rubrics

Created by
  • Haebom

作者

Aditya Pathak、Rachit Gandhi、Vaibhav Uttam、Arnav Ramamoorthy、Pratyush Ghosh、Aaryan Raj Jindal、Shreyash Verma、Aditya Mittal、Aashna Ased、Chirag Khatri、Yashwanth Nakka、Devansh、Jagat Sesh Challa、Dhruv

概要

この論文は、大規模言語モデル(LLM)を使用したコード評価に焦点を当て、既存の質問とは無関係の評価基準ではなく、質問固有の評価基準を使用するマルチエージェントベースの新しいアプローチを提案します。既存の研究がLLMを使用したコード生成に焦点を当てたのとは異なり、コード評価の研究は不十分な状況であり、この論文はこれらのギャップを埋めたいと考えています。適切な評価データセットの欠如を解決するために、データ構造とアルゴリズムの課題(150の提出物)とオブジェクト指向プログラミングの課題(80の提出物)の2つの新しいデータセットを紹介します。スピアマン相関係数やコーエンのカッパ係数などの標準指標に加えて、専門家評価に対する評価の厳格性を定量化する新しい指標である「寛大さ」を提案します。実験結果は,質問固有の評価基準が教育環境におけるコードの論理的評価を改善し,単純な構文的精度を超えて教育目標に適合するより良いフィードバックを提供することを示した。

Takeaways、Limitations

Takeaways:
LLMベースのコード評価における質問固有の評価基準の有効性を証明する。
教育環境におけるLLMを活用したコード評価の新たな可能性の提示
コード評価の厳格性を測定する新しい指標である「寛大さ」を提案。
データ構造とアルゴリズム、オブジェクト指向プログラミングの分野で新しい評価データセットを提供します。
Limitations:
提示されたデータセットの規模が比較的小さい。
様々なプログラミング言語と課題タイプの一般化の可能性に関するさらなる研究が必要
「寛大さ(Leniency)」指標の客観性と信頼性のさらなる検証が必要です。
質問 特定の評価基準生成の自動化と効率の改善が必要です。
👍