Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Sarc7: Evaluating Sarcasm Detection and Generation with Seven Types and Emotion-Informed Techniques

Created by
  • Haebom

作者

Lang Xiong, Raina Gao, Alyssa Jeong, Yicheng Fu, Sean O'Brien, Vasu Sharma, Kevin Zhu

概要

この論文は、大規模言語モデルを使用したサルカスム分類と生成に焦点を当てています。既存のねじれ検出の難しさを解決するために、MUStARDデータセットに基づいて、自己啓発、沈み込み、無表情、丁寧、不快、激怒、狂気など、7つの種類のねじれを分類するSarc7ベンチマークを提示します。ゼロショット、フューショット、思考連鎖(CoT)、および新しい感情ベースのプロンプト技術を使用して分類性能を評価し、ねじれの重要な要素である不一致、衝撃要素、コンテキスト依存性を把握して感情ベースの生成方法を提案する。実験の結果、Gemini 2.5モデルが感情ベースのプロンプトを使用したとき、0.3664のF1スコアを達成し、他の設定よりも優れた性能を示し、人の評価者は、感情ベースのプロンプティングがゼロショットプロンプトより38.46%成功した結果を示したと評価した。

Takeaways、Limitations

Takeaways:
7種類のひびを分類する新しいベンチマークSarc7を提示することで、ねじれ検出研究に貢献します。
感情に基づくプロンプト技術による大規模言語モデルのツイスト分類と生成性能の向上の可能性を提示
Gemini 2.5モデルを用いた実験結果により、感情ベースのプロンプトの有効性を検証。
Limitations:
F1スコア0.3664は、ツイスト分類問題の高い難易度を考慮しても、まだ低い数値。より高いパフォーマンスを達成するためのさらなる研究が必要です。
感情ベースのプロンプトの一般化パフォーマンスの追加検証が必要です。
特定のモデル(Gemini 2.5)への依存があり、他のモデルの実験結果が必要です。
MUStARDデータセットに依存するため、他のデータセットでのパフォーマンス検証が必要です。
👍