如何精確定位 AI 生成的文本和圖像 [+ 檢測工具]
已發表: 2023-04-11AI 生成的內容是一項引人入勝的發展,我們看到越來越多的文章、故事和圖像是由 AI 工具創建的。 (感謝 AI 的介紹句。)
但是,先進的 AI 生成工具的興起暴露了潛在的問題,從人們無法察覺 AI 與人類生成之間的差異到 AI 預測和分析完全錯誤。
這就是人工智能檢測的用武之地,因為它是人們發現文本、圖像甚至視頻何時是機器生成的一種方式,因此他們可以對他們消費的內容做出明智的決定。 在這篇文章中,我們將介紹:
什麼是AI檢測?
AI 檢測正在確定內容是 AI 還是人類生成的,通常藉助使用機器學習和自然語言處理來識別模式的 AI 檢測工具。 如果內容遵循更可預測的模式,工具可能會將其歸類為 AI 生成的。
AI 檢測工具不知道單詞的含義,而是使用上下文來分析文本。 為了獲得更多技術性,工具使用以下單詞左側的上下文來預測右側單詞的可能性。
右邊的詞越可預測,文本就越有可能是 AI 生成的。 另一方面,人類寫的句子與可預測的模式不同,並且更具創造性。
如果您和我一樣,一個基本示例可能有助於理解這一點。 讓我們分解一下。
假設有人輸入了“Bunnies are so fluffy”這句話。
該工具使用學習到的數據和“蓬鬆”左側單詞的上下文來預測“蓬鬆”更有可能出現在下一個詞中,比“可愛”或“柔軟”等詞更容易出現。
由於句子遵循高度可預測的模式,因此該工具可能會將文本歸類為 AI 生成的。
與“Bunnies are so fluffy”相比,AI 檢測工具的工作規模更大,句子和段落更複雜,可以進行預測和分類,但這是一個基本示例,展示了該過程的工作原理。
一些檢測工具分析圖像和視頻並使用像素異常來確定某些內容是否由 AI 生成。
如何檢測 AI 生成的文本
識別 AI 生成的文本沒有固定的規則或指南,但這裡有一些需要注意的事項:
- 單詞和短語的重複:人工智能知道它在說什麼,但不像人類專家那樣。 在討論某個主題時,它的輸出可能會重複相同的關鍵字和短語,變化不大。
- 缺乏深度:生成工具缺乏深度,無法超越基本事實來真正分析一個主題並形成獨特的見解。 AI 生成的文本可能讀起來更機械化和規範化,而不是創造性的,並且具有通用的語氣。
- 不准確和過時的信息:內容生成工具擁有的事實通常是正確的,但由於這些工具進行預測,輸出可能不正確或與真實事實無關。 此外,信息可能會過時,例如 ChatGPT 僅限於 2021 年 9 月之前的信息。
- 格式和結構:生成工具遵循與人類相同的句子結構,但句子可以更短,並且缺乏人類產生的複雜性、創造性和多變的句子結構。 內容可以精簡和統一,幾乎沒有變化。
人寫的文字也更容易出現錯別字,使用非正式和隨意的語言和渣。
Roft.io 是一款有趣的遊戲,可以測試您的檢測技能,並了解您在預測文本何時由 AI 生成方面的能力。
如何檢測 AI 生成的圖像和視頻
識別 AI 生成的圖像和視頻可能比檢測文本更具挑戰性。 一些經常討論的馬腳是:
- 帶紋理的背景,看起來像噴槍的圖像,整個圖像中的隨機筆觸
- 整體圖像清晰度,或部分圖像模糊而其他部分更清晰
- 圖像背景中明顯的文字
- 人臉、牙齒和手的不對稱
- 藝術家水印或簽名的跡象(人工智能工具是從現有藝術品中訓練出來的)
DALL-E 2 等工具會在圖像輸出上放置水印,但它們可能不容易被發現。 OpenAI 還允許人們刪除水印。 您還可以反向搜索圖片,看看網絡上是否有圖片的踪跡。
檢測 AI 圖像和視頻的挑戰是深度造假如此危險的原因,因為看起來足夠逼真的視頻和圖像會迅速傳播錯誤信息。
人工智能檢測工具
目前,可能更容易判斷某些東西是否是 AI 生成的,因為它聽起來像機器人,或者某人的手在圖像中缺少兩個手指。 如果生成工具變得更加複雜,人類可能更難找到關鍵的差異。
無論未來的進展如何,檢測工具在對 AI 生成的內容進行分類時比我們自己的推理能力更有幫助,並且有多種選擇可供選擇。
下面我們將回顧其中的一些,並使用來自 HubSpot 的內容助手(使用 GPT)的 AI 生成的段落來評估它們的有效性。 當我讓它寫一段關於狗的文章時,它給了我以下信息:
“狗簡直是神奇的生物。 他們忠誠、有愛心,並且樂此不疲。 無論您是需要一個毛茸茸的朋友在沙發上依偎,還是需要一個忠誠的伙伴來探索戶外的美景,狗狗總是能勝任。 它們有各種形狀和大小,從小巧的茶杯吉娃娃到雄偉的大丹犬,但所有狗都有一個共同點:對愛和感情的無限能力。 無論您是終生的愛狗人士還是剛接觸犬類世界的新手,現在都是與毛茸茸的朋友一起發現生活樂趣的最佳時機。”
請注意,如果人類書寫遵循可預測的模式,它仍然可以觸發工具。
1.零GPT
- 價格:免費或聯繫定制 API
- 測試: ChatGPT 和 Google Bard
ZeroGPT 的算法在 10M+ 文章和文本上進行訓練,檢測準確率達到 98%。 它支持多語言文本並檢測流行的語言生成器,如 Chat GPT、GPT-4 和 Google Bard。 輸出突出顯示最有可能由 AI 編寫的句子。
我輸入了關於狗的 AI 生成的段落,它預測文本是 88.57% 的 AI/GPT 生成的。
最適合: ZeroGPT 專為教育工作者構建,用於測試 AI 生成的內容,但它適用於任何希望檢測 AI 內容的人。
2.巨人語言模型測試室
- 價格:免費
- 測試:2019 年針對 GPT-2 文本開發,在其他生成器上可能不可靠
MIT-IBM Watson AI 實驗室和哈佛 NLP 小組創建了 Giant Language model Test Room 來檢測 AI 生成的文本。 它根據緊鄰左側的單詞出現的可能性來分析輸入。 單詞的可預測性越高,文本越有可能是由 AI 編寫的。
該工具不給出百分比,而是根據單詞的可預測性對單詞進行顏色編碼,綠色表示該單詞是前 10 個最可預測單詞的一部分。
我的大部分段落都以綠色突出顯示,因此這些詞是前 10 個最可預測的詞(基於上下文)的一部分,並且更有可能是 AI 生成的。
最適合:測試 GPT-2 並通過深入的概率分析了解有關可預測寫作的更多信息。
3. 原創.AI
- 價格:免費 50 信用試用,然後 0.01 美元/100 字(1 信用掃描 100 字)
- 測試: ChatGPT、GPT-3、GPT-3.5、GPT-NEO、GPT-J
Originality.AI Chrome Extension 由內容營銷專家構建,可檢測多個版本的 GPT,準確率為 94%。 它以 0-100 的等級對文本進行評分,分數越高表示由 AI 生成的可能性越高。 您還可以使用該工具來掃描剽竊(對教育工作者有益)。 超過50個字最準確。
通過我的測試,它說該段落有 99% 的可能性是由 AI 編寫的。
最適合: Chrome 擴展非常適合任何在在線寫作和閱讀時尋求無縫和即時檢測過程的人。 作家、內容營銷人員和網絡出版商都可以利用此工具; 不適合學者。
4. 規模化內容
- 價格:免費版,或聯繫 API 定價
- 測試: GPT
Content at Scale 的 AI Detector 使用 3 個 AI 引擎和自然語言處理來檢測 ChatGPT、所有版本的 GPT 和其他生成器。 您可以使用它來測試 SEO、教育和營銷內容。 該工具至少需要 25 個單詞才能獲得可靠的結果,您最多可以輸入 25,000 個字符。
我的測試結果沒有定論,因為該工具無法確定該段落是否由 AI 生成。 它給出了 51% 的人類內容得分和 17% 的可預測性。
它確實肯定地說最後一句話是人工智能生成的。
最適合:搜索引擎優化和以營銷為重點的內容創建者,以獲得逐行文本細分並分析更長的內容(最多 25,000 個字符)。
5.作家AI
- 價格:免費版本或聯繫 API 定價
- 測試: ChatGPT 和其他生成器
Writer AI 的內容檢測器估計有多少文本是 AI 生成的。 免費和付費版本的字數限制為 300 字(1,500 個字符),結果會預測文本中有多少是人工生成的內容。
它將我的段落打分為 87% 是人工生成的,並建議編輯文本,直到檢測不到 AI 內容為止。
最適合:希望在發布前分析和編輯內容的 B2B 以及企業和機構。
6. Hive 的 AI 檢測工具
- 價格:免費演示,請聯繫銷售人員了解 API 定價
- 測試: ChatGPT、GPT-3、DALL-E、Midjourney、Stable Diffusion
Hive 為圖像、文本和 deepfakes 提供了一套 AI 檢測工具。
文本檢測工具給出了 AI 生成的可能性的置信度分數,並估計哪些部分最可預測。 它還估計文本的哪些部分更有可能由 AI 生成。 它的起始長度為 750 個字符,建議長度為 1500 個字符。
我不得不輸入額外的單詞以達到字符數限制,它預測該段落有 99.99% 的可能性包含 AI 生成的內容。
媒體識別工具識別 AI 生成的媒體,給出分類(是否由 AI 生成)、置信度分數(≤ 1)和圖像生成源(如 DALL-E)。 (文檔,工具頁面)
Deepfake 檢測工具通過面部分類測試圖像或視頻是否為 Deepfake。 (文檔)
最適合:用於檢測 AI 內容的篩選工作或網站檢測和調節 AI 生成的圖像和文本。
7. 獎勵:OpenAI 的文本分類器
- 價格:免費(需要帳戶)
- 測試:所有版本的 GPT
OpenAI 的文本分類器可以區分 AI 生成的文本和人類編寫的文本。 它最適合超過 1,000 個字符和英文文本。
OpenAI 確實指出,它並不完全可靠,只能正確識別 26% 的 AI 文本,並且在 9% 的時間內錯誤地將人類編寫的文本標記為 AI,但較長文本的可靠性會提高。 它建議使用分類器作為其他測試方法的補充。
最適合:檢測 GPT
什麼是最好的 AI 檢測工具?
我在上面概述了每個工具的單獨測試分數,但這裡有一個比較分數的表格。
工具 | 分數 |
零GPT | 88.57% 人工智能含量 |
巨人語言模型測試室 | 僅概率 |
原創.AI | 99% 人工智能含量 |
規模化內容 | 49% 人工智能含量 |
作家人工智能 | 13% 人工智能含量 |
蜂巢 | 99.99% 人工智能含量 |
根據這些排名,
- 第一名是 Originality.AI、GLTR 和 Hive AI 並列
- 第二名是ZeroGPT
- 第三名是Writer AI
- 第四名是大規模內容
交給你
人工智能檢測使得區分機器生成的文本和人工生成的文本變得容易得多。 隨著人工智能工具變得越來越準確,人工智能檢測在幫助人們確定他們消費的內容的合法性方面仍然很重要。