[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

A recent evaluation on the performance of LLMs on radiation oncology physics using questions of randomly shuffled options

Created by
  • Haebom

作者

Peilong Wang, Jason Holmes, Zhengliang Liu, Dequan Chen, Tianming Liu, Jiajian Shen, Wei Liu

概要

本研究では、最近発売された5つの大規模言語モデル(LLM)(OpenAI o1-preview、GPT-4o、LLaMA 3.1(405B)、Gemini 1.5 Pro、Claude 3.5 Sonnet)の放射線腫瘍学物理学の質問応答能力を評価しています。 「整理するか、「上記の回答の中で正しいことがない」と置き換えて推論能力を評価した。置き換えると、パフォーマンスが大幅に低下し、推論能力を向上させる必要性が示唆されました。

Takeaways、Limitations

Takeaways:
最近リリースされたLLMは、放射線腫瘍学物理学の質問に対する専門家レベルの応答能力を示しました。
放射線腫瘍学物理学教育と訓練にLLMを利用する可能性を提示します。
特定のプロンプト戦略(説明はまず、ステップバイステップ)が一部のLLMの推論能力の向上に効果的です。
Limitations:
「上記の回答の中で正しいことはありません」オプションを追加すると、モデルの性能が低下し、推論能力を改善する必要性が提起されました。
使用された問題の数(100個)が比較的少ない可能性があります。
モデルの性能評価に多数決投票方式を使用した点
特定のプロンプト戦略の効果がすべてのモデルに適用されるわけではありません。
👍