每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

预印本:海报:我刚刚浏览了一个由法学硕士编写的网站吗?

Created by
  • Haebom

作者

Sichang Steven He、Ramesh Govindan、Harsha V. Madhyastha

大纲

本文探讨了网络上大规模语言模型 (LLM) 生成内容量日益增长所带来的可靠性和伦理问题,并提出了一种检测此类内容的流程。为了克服现有 LLM 检测器准确率较低的问题,我们采用了一种分析多个页面文本来对整个网站进行分类的方法。我们在 120 个网站上实现了 100% 的准确率,并从搜索结果和 Common Crawl 存档中的 20,000 个网站中检测到了相当一部分基于 LLM 的网站。

Takeaways,Limitations

Takeaways:
强调解决与 LLM 内容激增相关的可靠性和道德问题的重要性。
提出了一种用于对整个网站进行分类的可扩展的 LLM 内容检测流程。
我们观察并证实了现实世界网络环境中基于 LLM 的内容的相当一部分的增长。
人们担心 LLM 网站在搜索结果中排名过高会对用户和网络生态系统造成影响。
Limitations:
缺乏具体的管道实施方法和技术细节。
有必要验证特定数据集中的高精度是否在其他数据集中也能保持。
除了基于 LLM 的内容检测之外,还缺乏其他方法来解决相关问题。
👍