AI によって生成されたテキストと画像を特定する方法 [+ 検出ツール]
公開: 2023-04-11AI によって生成されたコンテンツは魅力的な開発であり、AI ツールによって作成された記事、ストーリー、画像がますます増えています。 (AIさん、イントロ文ありがとうございます。)
しかし、高度な AI 生成ツールの台頭により、人々が AI と人間の世代の違いを検出できないことから、AI の予測と分析が完全に間違っていることまで、潜在的な問題が明らかになりました。
AI 検出は、テキスト、画像、さらにはビデオが機械で生成されたものであることを人々が明らかにする方法であるため、消費するコンテンツについて十分な情報に基づいた決定を下すことができます。 この投稿では、次の内容について説明します。
AI検知とは?
AI 検出は、通常、機械学習と自然言語処理を使用してパターンを識別する AI 検出ツールを使用して、コンテンツが AI か人間が生成したかを判断します。 コンテンツがより予測可能なパターンに従っている場合、ツールはそれを AI 生成として分類する可能性があります。
AI 検出ツールは単語の意味を認識せず、コンテキストを使用してテキストを分析します。 より技術的になるために、ツールは次の単語の左側にあるもののコンテキストを使用して、右側にある単語の可能性を予測します。
右側の単語が予測可能であるほど、テキストが AI によって生成された可能性が高くなります。 一方、人間が書いた文章は、予測可能なパターンとは異なり、より創造的です。
あなたが私のような人なら、これを理解するのに基本的な例が役立つかもしれません. 分解してみましょう。
誰かが「うさぎはとてもふわふわしています」という文を入力したとします。
このツールは、学習したデータと「ふわふわ」の左側の単語のコンテキストを使用して、「かわいい」や「柔らかい」などの単語よりも「ふわふわ」が次に来る可能性が高いと予測します。
文は非常に予測可能なパターンに従っているため、ツールはテキストを AI 生成として分類する可能性があります。
AI 検出ツールは、予測と分類を行うために「バニーはとてもふわふわしています」よりも複雑な文と段落を使用して、はるかに大規模に機能しますが、これは基本的な例であり、プロセスがどのように機能するかを示しています。
一部の検出ツールは、画像や動画を分析し、ピクセルの異常を使用して何かが AI によって生成されたかどうかを判断します。
AI 生成テキストを検出する方法
AI によって生成されたテキストを識別するためのルールやガイドラインはありませんが、以下の点に注意してください。
- 単語やフレーズの繰り返し: AI は自分が話している内容を認識していますが、人間の専門家ほどではありません。 その出力は、トピックについて議論するときに、ほとんど変化のない同じキーワードとフレーズを繰り返す可能性があります。
- 深みの欠如:生成ツールには深さがなく、基本的な事実を超えてトピックを真に分析し、独自の洞察を生み出すことはできません。 AI によって生成されたテキストは、創造的というよりもロボット的で規範的であり、一般的なトーンを持っている可能性があります。
- 不正確で古い情報:コンテンツ生成ツールが持つ事実は通常正しいものですが、ツールは予測を行うため、出力が不正確であるか、真の事実と無関係である可能性があります。 さらに、ChatGPT が 2021 年 9 月より前の情報に限定されているなど、情報が古くなっている可能性があります。
- フォーマットと構造:生成ツールは人間と同じ文構造に従いますが、文は短くなる可能性があり、人間が生み出す複雑さ、創造性、および多様な文構造に欠ける場合があります。 コンテンツは合理化され、バリエーションがほとんどなく統一されています。
また、人間が書いたテキストは、タイプミスが発生しやすく、非公式でカジュアルな言葉やスラッグを使用している可能性が高くなります。
Roft.io は、検出スキルをテストし、テキストが AI によって生成されるタイミングを予測する能力を確認するための楽しいゲームです。
AI が生成した画像と動画を検出する方法
AI が生成した画像や動画の識別は、テキストの検出よりも少し難しい場合があります。 一般的に議論されるいくつかのテルは次のとおりです。
- テクスチャ付きの背景、エアブラシのように見える画像、画像全体のランダムなブラシ ストローク
- 全体的な画像のシャープネス、または画像の一部がぼやけており、他の部分が鮮明
- 画像の背景にある目立つテキスト
- 人間の顔、歯、手の非対称性
- アーティストの透かしまたは署名の兆候 (AI ツールは既存のアートワークからトレーニングされます)
DALL-E 2 などのツールは画像出力に透かしを入れますが、簡単に見つけられない場合があります。 OpenAI では、透かしを削除することもできます。 画像検索を逆にして、ウェブ上に画像の痕跡がないかどうかを確認することもできます。
AI の画像や動画を検出するという課題は、ディープフェイクが非常に危険である理由です。十分に生きているように見える動画や画像は、誤った情報を急速に拡散する可能性があります。
AI 検出ツール
現時点では、何かが AI によって生成されたものかどうかは、ロボットのように聞こえるため、または誰かの手が画像で 2 本の指を失っているため、簡単に判別できるかもしれません。 生成ツールがより高度になると、人間が重要な矛盾を見つけるのが難しくなる可能性があります。
将来の進歩に関係なく、AI によって生成されたコンテンツを分類する際に、検出ツールは私たち自身の推論能力よりも役立つ可能性があり、さまざまなオプションが利用可能です。
以下では、それらのいくつかについて説明し、HubSpot のコンテンツ アシスタント (GPT を使用) から AI によって生成された段落を使用して、その有効性を評価します。 犬についての段落を書くように頼んだとき、それが私に与えたものは次のとおりです。
「犬は本当に素晴らしい生き物です。 彼らは忠実で、愛情深く、際限なく楽しませてくれます。 ソファで寄り添う毛皮のような友人が必要な場合でも、アウトドアを探索するための忠実な仲間が必要な場合でも、犬は常にその仕事に取り組んでいます。 小さなティーカップのチワワから雄大なグレートデーンまで、さまざまな形やサイズがありますが、すべての犬に共通するのは、愛と愛情に対する無限の能力です。 あなたが生涯にわたる犬の愛好家であろうと、犬との交際の世界への初心者であろうと、毛皮のような友人と一緒に人生の喜びを発見するのにこれほど良い時期はありません.
予測可能なパターンに従っている場合、人間の書き込みでもツールをトリガーできることに注意してください。
1.ゼロGPT
- 価格:無料またはカスタム API についてはお問い合わせください
- テスト対象: ChatGPT および Google Bard
ZeroGPT のアルゴリズムは、1,000 万以上の記事とテキストでトレーニングされており、検出精度は 98% です。 多言語テキストをサポートし、Chat GPT、GPT-4、Google Bard などの一般的な言語ジェネレーターを検出します。 出力は、AI によって書かれた可能性が最も高い文章を強調表示します。
犬に関する AI 生成の段落に入ったところ、88.57% の AI/GPT で生成されたテキストであると予測されました。
最適: ZeroGPT は、教育者が AI によって生成されたコンテンツをテストするために構築されましたが、AI コンテンツを検出しようとしているすべての人に適しています。
2. 巨大言語モデル試験室
- 価格:無料
- のテスト: GPT-2 テキスト用に 2019 年に開発されたもので、他のジェネレーターでは信頼できない可能性があります
MIT-IBM ワトソン AI ラボとハーバード NLP グループは、AI によって生成されたテキストを検出するために Giant Language モデル テスト ルームを作成しました。 すぐ左側の単語に基づいて、各単語が出現する可能性に基づいて入力を分析します。 単語の予測可能性が高いほど、テキストが AI によって書かれている可能性が高くなります。
このツールはパーセンテージを示しませんが、予測可能性に基づいて単語を色分けします。緑色は、その単語が最も予測可能な上位 10 の単語の一部であることを意味します。
私の段落のほとんどは緑色で強調表示されているため、単語は (コンテキストに基づいて) 最も予測可能で、AI によって生成される可能性が高いトップ 10 の一部です。
最適: GPT-2 をテストし、詳細な確率分析を通じて予測可能な書き込みについて学習します。
3. オリジナリティ.AI
- 価格: 50 クレジット無料トライアル、その後 $0.01/100 ワード (1 クレジットで 100 ワードをスキャン)
- テスト: ChatGPT、GPT-3、GPT-3.5、GPT-NEO、GPT-J
コンテンツ マーケティングの専門家によって構築された Originality.AI Chrome 拡張機能は、GPT の複数のバージョンを 94% の精度で検出します。 テキストは 0 ~ 100 のスケールでスコア付けされ、スコアが高いほど AI によって生成される可能性が高くなります。 このツールを使用して盗作をスキャンすることもできます (教育者にとって有益です)。 50 語以上で最も正確です。
私のテストでは、段落が AI によって書かれた可能性が 99% であることがわかりました。
最適な用途: Chrome 拡張機能は、オンラインでの書き込みと読み取りをシームレスかつ迅速に検出するプロセスを求めるすべての人に最適です。 ライター、コンテンツ マーケター、および Web パブリッシャーは、このツールを活用できます。 学者向けではありません。
4. 大規模なコンテンツ
- 価格:無料版、または API の価格についてはお問い合わせください
- テスト対象: GPT
Content at Scale の AI Detector は、3 つの AI エンジンと自然言語処理を使用して、ChatGPT、GPT のすべてのバージョン、およびその他のジェネレーターを検出します。 これを使用して、SEO、教育、およびマーケティング コンテンツをテストできます。 このツールでは、信頼できる結果を得るために少なくとも 25 語が必要であり、最大 25,000 文字を入力できます。
段落が AI によって生成されたかどうかをツールが確実に判断できなかったため、私のテスト結果は決定的なものではありませんでした。 それは 17% の予測可能性で 51% のヒューマン コンテンツ スコアを与えました。
最後の文はAIが生成したものだと確信を持って言いました.
最適: SEO およびマーケティングに重点を置いたコンテンツ作成者は、行ごとのテキストの内訳を取得し、長いコンテンツ (最大 25,000 文字) を分析します。
5.ライターAI
- 価格:無料版または API の価格についてはお問い合わせください
- テスト対象: ChatGPT およびその他のジェネレーター
ライター AI のコンテンツ検出機能は、AI が生成したテキストの量を推定します。 無料版と有料版には 300 語 (1,500 文字) の制限があり、結果は、人間が生成したテキストの割合を予測します。
私の段落は 87% が人為的であると評価され、検出可能な AI コンテンツが少なくなるまでテキストを編集するように勧められました。
対象:公開前にコンテンツを分析および編集することを検討している B2B および企業および代理店。
6. Hive の AI 検出ツール
- 価格:無料のデモ、API の価格については営業にお問い合わせください
- テスト対象: ChatGPT、GPT-3、DALL-E、ミッドジャーニー、安定拡散
Hive は、画像、テキスト、およびディープフェイク用の一連の AI 検出ツールを提供します。
テキスト検出ツールは、何かが AI によって生成された可能性について信頼スコアを提供し、どのセクションが最も予測可能かを推定します。 また、テキストのどのセクションが AI によって生成される可能性が高いかを推定します。 推奨される長さは 1500 文字で、750 文字から機能します。
文字数制限に達するために追加の単語を入力する必要がありましたが、段落に AI 生成コンテンツが含まれる可能性が 99.99% であると予測されました。
メディア認識ツールは、AI によって生成されたメディアを識別し、分類 (AI によって生成されたかどうか)、信頼スコア (≤ 1)、および画像生成ソース (DALL-E など) を提供します。 (ドキュメント、ツール ページ)
ディープフェイク検出ツールは、顔の分類を通じて画像や動画がディープフェイクかどうかをテストします。 (ドキュメンテーション)
最適な用途: AI コンテンツを検出するためのスクリーニング作業、または Web サイトが AI によって生成された画像とテキストを検出してモデレートするための作業。
7. おまけ: OpenAI のテキスト分類子
- 価格:無料(要アカウント)
- テスト対象: GPT のすべてのバージョン
OpenAI の Text Classifier は、AI が生成したテキストと人間が書いたテキストを区別できます。 1,000 文字以上の英語のテキストで最適に機能します。
OpenAI は、完全に信頼できるわけではなく、AI テキストの 26% しか正しく識別できず、9% の確率で人間が書いたテキストを AI として誤ってラベル付けするだけであることに注意していますが、テキストが長いほど信頼性が向上します。 他のテスト方法を補完するものとして分類子を使用することをお勧めします。
最適: GPT の検出
最高の AI 検出ツールは何ですか?
上記で各ツールの個別のテスト スコアを概説しましたが、スコアを比較した表を次に示します。
道具 | スコア |
ZeroGPT | 88.57% AI コンテンツ |
巨大言語モデル実験室 | 確率のみ |
オリジナリティ.AI | 99% AI コンテンツ |
大規模なコンテンツ | 49% AI コンテンツ |
ライターAI | 13% AI コンテンツ |
ハイブ | 99.99% AI コンテンツ |
これらのランキングをもとに、
- 1位はOriginality.AI、GLTR、Hive AIが同点
- 2位はZeroGPT
- 3位はライターAI
- 4 位はコンテンツ アット スケール
オーバー・トゥ・ユー
AI 検出により、機械で生成されたテキストと人間が生成したテキストを簡単に区別できます。 AI ツールがますます正確になるにつれ、人々が消費するコンテンツの正当性を判断するのに役立つ AI 検出は引き続き重要になります。