Comment identifier le texte et les images générés par l'IA [+ Outils de détection]
Publié: 2023-04-11Le contenu généré par l'IA est un développement fascinant, et nous voyons de plus en plus d'articles, d'histoires et d'images créés par des outils d'IA. (Merci, AI, pour la phrase d'introduction.)
Mais l'essor des outils avancés de génération d'IA a révélé des problèmes potentiels, allant de l'incapacité des personnes à détecter la différence entre l'IA et les générations humaines aux prédictions et analyses de l'IA totalement erronées.
C'est là qu'intervient la détection de l'IA, car c'est un moyen pour les gens de découvrir quand du texte, des images et même des vidéos sont générés par la machine, afin qu'ils puissent prendre des décisions éclairées sur le contenu qu'ils consomment. Dans cet article, nous couvrirons :
Qu'est-ce que la détection par IA ?
La détection de l'IA consiste à déterminer si le contenu est généré par l'IA ou par l'homme, généralement à l'aide d'un outil de détection de l'IA qui utilise l'apprentissage automatique et le traitement du langage naturel pour identifier les modèles. Si le contenu suit un modèle plus prévisible, un outil le classera probablement comme généré par l'IA.
Les outils de détection d'IA ne connaissent pas le sens des mots et utilisent le contexte pour analyser le texte. Pour devenir plus technique, les outils utilisent le contexte de ce qui se trouve à gauche du mot suivant pour prédire la probabilité du mot à droite.
Plus le mot à droite est prévisible, plus le texte est susceptible d'être généré par l'IA. D'un autre côté, les phrases écrites par l'homme varient des modèles prévisibles et sont plus créatives.
Si vous êtes comme moi, un exemple de base pourrait être utile pour comprendre cela. Décomposons-le.
Supposons que quelqu'un saisit la phrase "Les lapins sont si moelleux".
L'outil utilise les données apprises et le contexte des mots à gauche de "moelleux" pour prédire que "moelleux" est plus susceptible de venir ensuite, plus que des mots comme "mignon" ou "doux".
Étant donné que la phrase suit un modèle hautement prévisible, l'outil classera probablement le texte comme généré par l'IA.
Les outils de détection d'IA fonctionnent à une échelle beaucoup plus grande avec des phrases et des paragraphes plus complexes que "Les lapins sont si moelleux" pour faire des prédictions et des classifications, mais ceci est un exemple de base et montre comment le processus fonctionne.
Certains outils de détection analysent des images et des vidéos et utilisent des anomalies de pixels pour déterminer si quelque chose est généré par l'IA.
Comment détecter le texte généré par l'IA
Il n'y a pas de règles ou de lignes directrices définies pour identifier le texte généré par l'IA, mais voici quelques points à surveiller :
- Répétition de mots et de phrases : l'IA sait de quoi elle parle, mais pas autant que les experts humains. Ses sorties peuvent répéter les mêmes mots clés et expressions avec peu de variation lors de la discussion d'un sujet.
- Manque de profondeur : les outils de génération manquent de profondeur et ne peuvent pas aller au-delà des faits de base pour vraiment analyser un sujet et développer une vision unique. Le texte généré par l'IA peut être plus robotique et normatif que créatif et avoir un ton générique.
- Informations inexactes et obsolètes : les faits dont disposent les outils de génération de contenu sont généralement corrects, mais comme les outils font des prédictions, les résultats peuvent être incorrects ou sans rapport avec des faits réels. De plus, les informations peuvent être obsolètes, comme la façon dont ChatGPT est limité aux informations antérieures à septembre 2021.
- Format et structure : les outils de génération suivent la même structure de phrase que les humains, mais les phrases peuvent être plus courtes et manquer de la complexité, de la créativité et de la structure de phrase variée que produisent les humains. Le contenu peut être rationalisé et uniforme avec peu de variation.
Le texte écrit par l'homme est également plus susceptible d'avoir des fautes de frappe et d'utiliser un langage et des scories informels et décontractés.
Roft.io est un jeu amusant pour tester vos capacités de détection et voir à quel point vous savez prédire quand le texte est généré par l'IA.
Comment détecter les images et les vidéos générées par l'IA
L'identification des images et des vidéos générées par l'IA peut être un peu plus difficile que la détection de texte. Certains tell couramment discutés sont:
- Arrière-plans texturés, images qui semblent aérographiées, coups de pinceau aléatoires dans les images
- Netteté globale de l'image ou parties d'images floues tandis que d'autres sont plus claires
- Texte visible en arrière-plan des images
- Asymétrie dans les visages humains, les dents et les mains
- Signes de filigranes ou de signatures d'artistes (les outils d'IA sont formés à partir d'œuvres d'art existantes)
Des outils comme DALL-E 2 placent un filigrane sur les sorties d'image, mais ils peuvent ne pas être faciles à repérer. OpenAI permet également aux utilisateurs de supprimer un filigrane. Vous pouvez également inverser la recherche d'images pour voir s'il existe des traces d'une image sur le Web.
Le défi de détecter les images et les vidéos d'IA est la raison pour laquelle les deepfakes sont si dangereux, car les vidéos et les images qui semblent suffisamment réalistes peuvent rapidement propager la désinformation.
Outils de détection d'IA
Pour le moment, il pourrait être plus facile de dire si quelque chose est généré par l'IA parce que cela semble robotique ou s'il manque deux doigts à la main de quelqu'un dans une image. Si les outils de génération deviennent plus sophistiqués, il pourrait être plus difficile pour les humains de trouver les principaux écarts.
Indépendamment des progressions futures, les outils de détection peuvent être plus utiles que nos propres capacités de déduction pour classer le contenu généré par l'IA, et diverses options sont disponibles.
Ci-dessous, nous passerons en revue certains d'entre eux et évaluerons leur efficacité à l'aide d'un paragraphe généré par l'IA à partir de l'assistant de contenu de HubSpot (qui utilise GPT). Voici ce qu'il m'a donné quand je lui ai demandé d'écrire un paragraphe sur les chiens :
« Les chiens sont tout simplement des créatures incroyables. Ils sont loyaux, aimants et divertissants sans fin. Que vous ayez besoin d'un ami à fourrure à câliner sur le canapé ou d'un compagnon fidèle pour explorer les grands espaces, les chiens sont toujours prêts à relever le défi. Ils sont de toutes formes et tailles, des minuscules chihuahuas en tasse de thé aux majestueux dogues allemands, mais tous les chiens partagent une chose en commun : une capacité illimitée d'amour et d'affection. Que vous soyez un amoureux des chiens depuis toujours ou un nouveau venu dans le monde de la compagnie canine, il n'y a jamais eu de meilleur moment pour découvrir les joies de la vie avec un ami à quatre pattes à vos côtés.
Notez que l'écriture humaine peut toujours déclencher un outil si elle suit un schéma prévisible.
1. Zéro GPT
- Prix : gratuit ou contactez-nous pour une API personnalisée
- Tests pour : ChatGPT et Google Bard
L'algorithme de ZeroGPT est formé sur plus de 10 millions d'articles et de texte pour avoir un taux de précision de détection de 98 %. Il prend en charge le texte multilingue et détecte les générateurs de langage populaires tels que Chat GPT, GPT-4 et Google Bard. Les sorties mettent en évidence les phrases les plus susceptibles d'être écrites par l'IA.
J'ai entré le paragraphe généré par l'IA sur les chiens, et il a prédit que le texte est généré à 88,57 % par AI/GPT.
Idéal pour : ZeroGPT a été conçu pour que les enseignants testent le contenu généré par l'IA, mais il fonctionne pour tous ceux qui cherchent à détecter le contenu de l'IA.
2. Salle de test du modèle de langage géant
- Prix : Gratuit
- Tests pour : Développé en 2019 pour le texte GPT-2, peut ne pas être fiable sur d'autres générateurs
Le laboratoire MIT-IBM Watson AI et le groupe Harvard NLP ont créé la salle de test du modèle Giant Language pour détecter le texte généré par l'IA. Il analyse les entrées en fonction de la probabilité que chaque mot apparaisse en fonction du mot immédiatement à gauche. Plus le mot est prévisible, plus il est probable que le texte soit écrit par l'IA.
Cet outil ne donne pas de pourcentage mais code les mots en couleur en fonction de leur prévisibilité, le vert signifiant que le mot fait partie des 10 mots les plus prévisibles.
La majeure partie de mon paragraphe est surlignée en vert, donc les mots font partie du top 10 les plus prévisibles (basés sur le contexte) et les plus susceptibles d'être générés par l'IA.
Idéal pour : tester GPT-2 et en savoir plus sur l'écriture prévisible grâce à une analyse de probabilité approfondie.
3. Originalité.AI
- Prix : Essai gratuit de 50 crédits, puis 0,01 $/100 mots (1 crédit scanne 100 mots)
- Tests pour : ChatGPT, GPT-3, GPT-3.5, GPT-NEO, GPT-J
Originality.AI Chrome Extension, conçue par des experts en marketing de contenu, détecte plusieurs versions de GPT avec une précision de 94 %. Il note le texte sur une échelle de 0 à 100, un score plus élevé étant une plus grande probabilité d'être produit par l'IA. Vous pouvez également utiliser l'outil pour rechercher le plagiat (avantageux pour les éducateurs). C'est le plus précis avec plus de 50 mots.
Avec mon test, il a indiqué que le paragraphe avait 99% de chances d'avoir été écrit par AI.
Idéal pour : l'extension Chrome est idéale pour tous ceux qui recherchent un processus de détection transparent et immédiat lors de l'écriture et de la lecture en ligne. Les écrivains, les spécialistes du marketing de contenu et les éditeurs Web peuvent tirer parti de cet outil ; pas pour les universitaires.
4. Contenu à grande échelle
- Prix : version gratuite ou contactez-nous pour connaître les tarifs de l'API
- Tests pour : GPT
Le détecteur d'IA de Content at Scale utilise 3 moteurs d'IA et le traitement du langage naturel pour détecter ChatGPT, toutes les versions de GPT et d'autres générateurs. Vous pouvez l'utiliser pour tester le contenu SEO, éducatif et marketing. L'outil a besoin d'au moins 25 mots pour des résultats fiables, et vous pouvez entrer jusqu'à 25 000 caractères.
Mes résultats de test n'étaient pas concluants car l'outil ne pouvait pas dire avec certitude si le paragraphe était généré par l'IA. Il a donné un score de contenu humain de 51 % avec une prévisibilité de 17 %.
Il a dit avec certitude que la dernière phrase est générée par l'IA.
Idéal pour : les créateurs de contenu axés sur le référencement et le marketing pour obtenir des ventilations de texte ligne par ligne et analyser des éléments de contenu plus longs (jusqu'à 25 000 caractères).
5. L'IA de l'écrivain
- Prix : Version gratuite ou contactez-nous pour connaître les tarifs de l'API
- Tests pour : ChatGPT et autres générateurs
Le détecteur de contenu de Writer AI estime la quantité de texte générée par l'IA. Les versions gratuites et payantes ont une limite de 300 mots (1 500 caractères) et les résultats donnent un pourcentage de prédiction de la quantité de texte qui est du contenu généré par l'homme.
Il a noté que mon paragraphe était à 87% généré par l'homme, avec une recommandation de modifier le texte jusqu'à ce qu'il y ait moins de contenu d'IA détectable.
Idéal pour : B2B, entreprises et agences cherchant à analyser et modifier le contenu avant de le publier.
6. Outils de détection d'IA de Hive
- Prix : démo gratuite, contactez le service commercial pour connaître les tarifs de l'API
- Tests pour : ChatGPT, GPT-3, DALL-E, Midjourney, Stable Diffusion
Hive propose une suite d'outils de détection d'IA pour les images, le texte et les deepfakes.
L'outil de détection de texte donne un score de confiance quant à la probabilité que quelque chose soit généré par l'IA et estime quelles sections sont les plus prévisibles. Il estime également quelles sections de texte sont les plus susceptibles d'être générées par l'IA. Il fonctionne à partir de 750 caractères avec une longueur recommandée de 1500 caractères.
J'ai dû saisir des mots supplémentaires pour atteindre la limite de caractères, et il a prédit que le paragraphe était susceptible à 99,99 % de contenir du contenu généré par l'IA.
L'outil de reconnaissance multimédia identifie les médias générés par l'IA, donne une classification (générée par l'IA ou non), un score de confiance (≤ 1) et une source de génération d'image (comme DALL-E). (Documentation, page outil)
L'outil de détection de deepfake teste si les images ou les vidéos sont des deepfakes grâce à la classification faciale. (Documentation)
Idéal pour : le travail de filtrage pour détecter le contenu de l'IA ou pour les sites Web afin de détecter et de modérer les images et le texte générés par l'IA.
7. Bonus : le classificateur de texte d'OpenAI
- Prix : Gratuit (nécessite un compte)
- Tests pour : toutes les versions de GPT
Le classificateur de texte d'OpenAI peut faire la distinction entre le texte généré par l'IA et le texte écrit par l'homme. Cela fonctionne mieux avec plus de 1 000 caractères et du texte en anglais.
OpenAI note qu'il n'est pas entièrement fiable et n'identifie correctement que 26% du texte IA et étiquette incorrectement le texte écrit par l'homme comme IA 9% du temps, mais la fiabilité augmente pour un texte plus long. Il recommande d'utiliser le classificateur en complément d'autres méthodes de test.
Idéal pour : détecter GPT
Quel est le meilleur outil de détection d'IA ?
J'ai décrit le score de test individuel de chaque outil ci-dessus, mais voici un tableau comparant les scores.
Outil | score |
ZéroGPT | 88,57 % de contenu IA |
Salle de test du modèle de langage géant | Probabilité uniquement |
Originalité.AI | 99 % de contenu IA |
Contenu à grande échelle | 49 % de contenu IA |
IA de l'écrivain | 13 % de contenu IA |
Ruche | 99,99 % de contenu IA |
Sur la base de ces classements,
- La première place est à égalité entre Originality.AI, GLTR et Hive AI
- La deuxième place est ZeroGPT
- La troisième place est Writer AI
- La quatrième place est le contenu à l'échelle
À vous
La détection de l'IA facilite grandement la distinction entre le texte généré par la machine et celui généré par l'homme. À mesure que les outils d'IA deviennent de plus en plus précis, la détection de l'IA restera importante pour aider les gens à déterminer la légitimité du contenu qu'ils consomment.