Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Linguistic and Embedding-Based Profiling of Texts generated by Humans and Large Language Models

Created by
  • Haebom

作者

Sergio E. Zanotto、Segun Aroyehun

概要

大規模言語モデル(LLM)の進歩により、LLMが生成するテキストが人間が書いたテキストと区別することが困難になりました。本研究では、テキストが人間によって作成されたか、機械が生成したかを分類するのではなく、形式、構文、セマンティクスなどのさまざまな言語学的特徴を使用してテキストを特徴付けます。 8つのドメインと11のLLMから生成された人間作成テキストと機械生成テキストを選択して、依存性の長さや感性など様々な言語学的特徴を計算し、サンプリング戦略、反復制御、モデルリリース日とともに使用します。人間によって書かれたテキストは、より単純な構文構造とより多様な意味の内容を示しています。モデルとドメイン全体にわたって特徴のボラティリティを計算した結果、人間と機械が生成したテキストの両方がドメインに応じてスタイルが変化し、人間の作成テキストがより大きなボラティリティを示しました。スタイル埋め込みを適用して人間と機械生成テキスト間のボラティリティをさらにテストした結果、最新モデルが同様にボラティリティのあるテキストを生成し、機械生成テキストの均質化を示唆します。

Takeaways、Limitations

人間が書いたテキストは、より単純な構文構造とより多様な意味の内容を示しています。
人間と機械で生成されたテキストの両方は、ドメインに応じてスタイルの多様性を示しています。
人間が書いたテキストは、より大きな特徴のボラティリティを示します。
最新のLLMは、テキストのボラティリティが類似しているため、機械生成テキストの均質化を示唆しています。
研究は特定の言語学的特徴に限定されており、他の特徴、モデル、ドメインの一般化が必要な場合があります。
スタイル埋め込みの適用は、限られたデータに基づいて行うことができます。
研究結果がテキスト生成技術の継続的な発展と変化によってどのように変化するかをさらに検討する必要がある。
👍