如何精确定位 AI 生成的文本和图像 [+ 检测工具]
已发表: 2023-04-11AI 生成的内容是一项引人入胜的发展,我们看到越来越多的文章、故事和图像是由 AI 工具创建的。 (感谢 AI 的介绍句。)
但是,先进的 AI 生成工具的兴起暴露了潜在的问题,从人们无法察觉 AI 与人类生成之间的差异到 AI 预测和分析完全错误。
这就是人工智能检测的用武之地,因为它是人们发现文本、图像甚至视频何时是机器生成的一种方式,因此他们可以对他们消费的内容做出明智的决定。 在这篇文章中,我们将介绍:
什么是AI检测?
AI 检测正在确定内容是 AI 还是人类生成的,通常借助使用机器学习和自然语言处理来识别模式的 AI 检测工具。 如果内容遵循更可预测的模式,工具可能会将其归类为 AI 生成的。
AI 检测工具不知道单词的含义,而是使用上下文来分析文本。 为了获得更多技术性,工具使用以下单词左侧的上下文来预测右侧单词的可能性。
右边的词越可预测,文本就越有可能是 AI 生成的。 另一方面,人类写的句子与可预测的模式不同,并且更具创造性。
如果您和我一样,一个基本示例可能有助于理解这一点。 让我们分解一下。
假设有人输入了“Bunnies are so fluffy”这句话。
该工具使用学习到的数据和“蓬松”左侧单词的上下文来预测“蓬松”更有可能出现在下一个词中,比“可爱”或“柔软”等词更容易出现。
由于句子遵循高度可预测的模式,因此该工具可能会将文本归类为 AI 生成的。
与“Bunnies are so fluffy”相比,AI 检测工具的工作规模更大,句子和段落更复杂,可以进行预测和分类,但这是一个基本示例,展示了该过程的工作原理。
一些检测工具分析图像和视频并使用像素异常来确定某些内容是否由 AI 生成。
如何检测 AI 生成的文本
识别 AI 生成的文本没有固定的规则或指南,但这里有一些需要注意的事项:
- 单词和短语的重复:人工智能知道它在说什么,但不像人类专家那样。 在讨论某个主题时,它的输出可能会重复相同的关键字和短语,变化不大。
- 缺乏深度:生成工具缺乏深度,无法超越基本事实来真正分析一个主题并形成独特的见解。 AI 生成的文本可能读起来更机械化和规范化,而不是创造性的,并且具有通用的语气。
- 不准确和过时的信息:内容生成工具拥有的事实通常是正确的,但由于这些工具进行预测,输出可能不正确或与真实事实无关。 此外,信息可能会过时,例如 ChatGPT 仅限于 2021 年 9 月之前的信息。
- 格式和结构:生成工具遵循与人类相同的句子结构,但句子可以更短,并且缺乏人类产生的复杂性、创造性和多变的句子结构。 内容可以精简和统一,几乎没有变化。
人写的文字也更容易出现错别字,使用非正式和随意的语言和渣。
Roft.io 是一款有趣的游戏,可以测试您的检测技能,并了解您在预测文本何时由 AI 生成方面的能力。
如何检测 AI 生成的图像和视频
识别 AI 生成的图像和视频可能比检测文本更具挑战性。 一些经常讨论的马脚是:
- 带纹理的背景,看起来像喷枪的图像,整个图像中的随机笔触
- 整体图像清晰度,或部分图像模糊而其他部分更清晰
- 图像背景中明显的文字
- 人脸、牙齿和手的不对称
- 艺术家水印或签名的迹象(人工智能工具是从现有艺术品中训练出来的)
DALL-E 2 等工具会在图像输出上放置水印,但它们可能不容易被发现。 OpenAI 还允许人们删除水印。 您还可以反向搜索图片,看看网络上是否有图片的踪迹。
检测 AI 图像和视频的挑战是深度造假如此危险的原因,因为看起来足够逼真的视频和图像会迅速传播错误信息。
人工智能检测工具
目前,可能更容易判断某些东西是否是 AI 生成的,因为它听起来像机器人,或者某人的手在图像中缺少两个手指。 如果生成工具变得更加复杂,人类可能更难找到关键的差异。
无论未来的进展如何,检测工具在对 AI 生成的内容进行分类时比我们自己的推理能力更有帮助,并且有多种选择可供选择。
下面我们将回顾其中的一些,并使用来自 HubSpot 的内容助手(使用 GPT)的 AI 生成的段落来评估它们的有效性。 当我让它写一段关于狗的文章时,它给了我以下信息:
“狗简直是神奇的生物。 他们忠诚、有爱心,并且乐此不疲。 无论您是需要一个毛茸茸的朋友在沙发上依偎,还是需要一个忠诚的伙伴来探索户外的美景,狗狗总是能胜任。 它们有各种形状和大小,从小巧的茶杯吉娃娃到雄伟的大丹犬,但所有狗都有一个共同点:对爱和感情的无限能力。 无论您是终生的爱狗人士还是刚接触犬类世界的新手,现在都是与毛茸茸的朋友一起发现生活乐趣的最佳时机。”
请注意,如果人类书写遵循可预测的模式,它仍然可以触发工具。
1.零GPT
- 价格:免费或联系定制 API
- 测试: ChatGPT 和 Google Bard
ZeroGPT 的算法在 10M+ 文章和文本上进行训练,检测准确率达到 98%。 它支持多语言文本并检测流行的语言生成器,如 Chat GPT、GPT-4 和 Google Bard。 输出突出显示最有可能由 AI 编写的句子。
我输入了关于狗的 AI 生成的段落,它预测文本是 88.57% 的 AI/GPT 生成的。
最适合: ZeroGPT 专为教育工作者构建,用于测试 AI 生成的内容,但它适用于任何希望检测 AI 内容的人。
2.巨人语言模型测试室
- 价格:免费
- 测试:2019 年针对 GPT-2 文本开发,在其他生成器上可能不可靠
MIT-IBM Watson AI 实验室和哈佛 NLP 小组创建了 Giant Language model Test Room 来检测 AI 生成的文本。 它根据紧邻左侧的单词出现的可能性来分析输入。 单词的可预测性越高,文本越有可能是由 AI 编写的。
该工具不给出百分比,而是根据单词的可预测性对单词进行颜色编码,绿色表示该单词是前 10 个最可预测单词的一部分。
我的大部分段落都以绿色突出显示,因此这些词是前 10 个最可预测的词(基于上下文)的一部分,并且更有可能是 AI 生成的。
最适合:测试 GPT-2 并通过深入的概率分析了解有关可预测写作的更多信息。
3. 原创.AI
- 价格:免费 50 信用试用,然后 0.01 美元/100 字(1 信用扫描 100 字)
- 测试: ChatGPT、GPT-3、GPT-3.5、GPT-NEO、GPT-J
Originality.AI Chrome Extension 由内容营销专家构建,可检测多个版本的 GPT,准确率为 94%。 它以 0-100 的等级对文本进行评分,分数越高表示由 AI 生成的可能性越高。 您还可以使用该工具来扫描剽窃(对教育工作者有益)。 超过50个字最准确。
通过我的测试,它说该段落有 99% 的可能性是由 AI 编写的。
最适合: Chrome 扩展非常适合任何在在线写作和阅读时寻求无缝和即时检测过程的人。 作家、内容营销人员和网络出版商都可以利用此工具; 不适合学者。
4. 规模化内容
- 价格:免费版,或联系 API 定价
- 测试: GPT
Content at Scale 的 AI Detector 使用 3 个 AI 引擎和自然语言处理来检测 ChatGPT、所有版本的 GPT 和其他生成器。 您可以使用它来测试 SEO、教育和营销内容。 该工具至少需要 25 个单词才能获得可靠的结果,您最多可以输入 25,000 个字符。
我的测试结果没有定论,因为该工具无法确定该段落是否由 AI 生成。 它给出了 51% 的人类内容得分和 17% 的可预测性。
它确实肯定地说最后一句话是人工智能生成的。
最适合:搜索引擎优化和以营销为重点的内容创建者,以获得逐行文本细分并分析更长的内容(最多 25,000 个字符)。
5.作家AI
- 价格:免费版本或联系 API 定价
- 测试: ChatGPT 和其他生成器
Writer AI 的内容检测器估计有多少文本是 AI 生成的。 免费和付费版本的字数限制为 300 字(1,500 个字符),结果会预测文本中有多少是人工生成的内容。
它将我的段落打分为 87% 是人工生成的,并建议编辑文本,直到检测不到 AI 内容为止。
最适合:希望在发布前分析和编辑内容的 B2B 以及企业和机构。
6. Hive 的 AI 检测工具
- 价格:免费演示,请联系销售人员了解 API 定价
- 测试: ChatGPT、GPT-3、DALL-E、Midjourney、Stable Diffusion
Hive 为图像、文本和 deepfakes 提供了一套 AI 检测工具。
文本检测工具给出了 AI 生成的可能性的置信度分数,并估计哪些部分最可预测。 它还估计文本的哪些部分更有可能由 AI 生成。 它的起始长度为 750 个字符,建议长度为 1500 个字符。
我不得不输入额外的单词以达到字符数限制,它预测该段落有 99.99% 的可能性包含 AI 生成的内容。
媒体识别工具识别 AI 生成的媒体,给出分类(是否由 AI 生成)、置信度分数(≤ 1)和图像生成源(如 DALL-E)。 (文档,工具页面)
Deepfake 检测工具通过面部分类测试图像或视频是否为 Deepfake。 (文档)
最适合:用于检测 AI 内容的筛选工作或网站检测和调节 AI 生成的图像和文本。
7. 奖励:OpenAI 的文本分类器
- 价格:免费(需要帐户)
- 测试:所有版本的 GPT
OpenAI 的文本分类器可以区分 AI 生成的文本和人类编写的文本。 它最适合超过 1,000 个字符和英文文本。
OpenAI 确实指出,它并不完全可靠,只能正确识别 26% 的 AI 文本,并且在 9% 的时间内错误地将人类编写的文本标记为 AI,但较长文本的可靠性会提高。 它建议使用分类器作为其他测试方法的补充。
最适合:检测 GPT
什么是最好的 AI 检测工具?
我在上面概述了每个工具的单独测试分数,但这里有一个比较分数的表格。
工具 | 分数 |
零GPT | 88.57% 人工智能含量 |
巨人语言模型测试室 | 仅概率 |
原创.AI | 99% 人工智能含量 |
规模化内容 | 49% 人工智能含量 |
作家人工智能 | 13% 人工智能含量 |
蜂巢 | 99.99% 人工智能含量 |
根据这些排名,
- 第一名是 Originality.AI、GLTR 和 Hive AI 并列
- 第二名是ZeroGPT
- 第三名是Writer AI
- 第四名是大规模内容
交给你
人工智能检测使得区分机器生成的文本和人工生成的文本变得容易得多。 随着人工智能工具变得越来越准确,人工智能检测在帮助人们确定他们消费的内容的合法性方面仍然很重要。