Como identificar texto e imagens gerados por IA [+ Ferramentas de detecção]
Publicados: 2023-04-11O conteúdo gerado por IA é um desenvolvimento fascinante e estamos vendo cada vez mais artigos, histórias e imagens criadas por ferramentas de IA. (Obrigado, AI, pela frase de introdução.)
Mas, o surgimento de ferramentas avançadas de geração de IA expôs possíveis problemas, desde pessoas incapazes de detectar a diferença entre IA e gerações humanas até previsões e análises de IA totalmente erradas.
É aqui que entra a detecção de IA, pois é uma maneira de as pessoas descobrirem quando textos, imagens e até vídeos são gerados por máquina, para que possam tomar decisões informadas sobre o conteúdo que consomem. Neste post, abordaremos:
O que é detecção de IA?
A detecção de IA é descobrir se o conteúdo é gerado por IA ou humano, geralmente com a ajuda de uma ferramenta de detecção de IA que usa aprendizado de máquina e processamento de linguagem natural para identificar padrões. Se o conteúdo seguir um padrão mais previsível, uma ferramenta provavelmente o classificará como gerado por IA.
As ferramentas de detecção de IA não conhecem o significado das palavras e usam o contexto para analisar o texto. Para ser mais técnico, as ferramentas usam o contexto do que está à esquerda da palavra seguinte para prever a probabilidade da palavra à direita.
Quanto mais previsível for a palavra à direita, maior a probabilidade de o texto ser gerado por IA. Por outro lado, as frases escritas por humanos variam de padrões previsíveis e são mais criativas.
Se você for como eu, um exemplo básico pode ser útil para entender isso. Vamos decompô-lo.
Digamos que alguém insira a frase “Coelhos são tão fofos”.
A ferramenta usa dados aprendidos e contexto de palavras à esquerda de “fofo” para prever que “fofo” é mais provável que venha a seguir, mais do que palavras como “fofo” ou “macio”.
Como a frase segue um padrão altamente previsível, a ferramenta provavelmente classificará o texto como gerado por IA.
As ferramentas de detecção de IA funcionam em uma escala muito maior com frases e parágrafos mais complexos do que “Coelhinhos são tão fofos” para fazer previsões e classificações, mas este é um exemplo básico e mostra como o processo funciona.
Algumas ferramentas de detecção analisam imagens e vídeos e usam anomalias de pixel para determinar se algo é gerado por IA.
Como detectar texto gerado por IA
Não há regras ou diretrizes definidas para identificar texto gerado por IA, mas aqui estão algumas coisas a serem observadas:
- Repetição de palavras e frases: a IA sabe do que está falando, mas não tanto quanto os especialistas humanos. Suas saídas podem repetir as mesmas palavras-chave e frases com pouca variação ao discutir um tópico.
- Falta de profundidade: as ferramentas de geração carecem de profundidade e não podem ir além dos fatos básicos para analisar verdadeiramente um tópico e desenvolver uma visão única. O texto gerado por IA pode ser mais robótico e prescritivo do que criativo e tem um tom genérico.
- Informações imprecisas e desatualizadas: os fatos que as ferramentas de geração de conteúdo têm geralmente estão corretos, mas como as ferramentas fazem previsões, as saídas podem estar incorretas ou não relacionadas a fatos verdadeiros. Além disso, as informações podem estar desatualizadas, como o ChatGPT é limitado a informações anteriores a setembro de 2021.
- Formato e estrutura: as ferramentas de geração seguem a mesma estrutura de frase que os humanos, mas as frases podem ser mais curtas e carecer da complexidade, criatividade e estrutura de frase variada que os humanos produzem. O conteúdo pode ser simplificado e uniforme com pouca variação.
O texto escrito por humanos também é mais propenso a ter erros de digitação e usar linguagem informal e casual e escória.
Roft.io é um jogo divertido para testar suas habilidades de detecção e ver como você é bom em prever quando o texto é gerado por IA.
Como detectar imagens e vídeos gerados por IA
Identificar imagens e vídeos gerados por IA pode ser um pouco mais desafiador do que detectar texto. Algumas indicações comumente discutidas são:
- Planos de fundo texturizados, imagens que parecem retocadas, pinceladas aleatórias nas imagens
- Nitidez geral da imagem ou partes das imagens que estão desfocadas enquanto outras são mais nítidas
- Texto perceptível no fundo das imagens
- Assimetria em rostos humanos, dentes e mãos
- Sinais de marcas d'água ou assinaturas de artistas (as ferramentas de IA são treinadas a partir de obras de arte existentes)
Ferramentas como DALL-E 2 colocam uma marca d'água nas saídas de imagem, mas podem não ser fáceis de detectar. O OpenAI também permite que as pessoas removam uma marca d'água. Você também pode inverter a pesquisa de imagens para ver se há vestígios de uma imagem na web.
O desafio de detectar imagens e vídeos de IA é o motivo pelo qual os deepfakes são tão perigosos, já que vídeos e imagens que parecem realistas o suficiente podem espalhar informações erradas rapidamente.
Ferramentas de detecção de IA
No momento, pode ser mais fácil dizer se algo é gerado por IA porque soa robótico ou se faltam dois dedos na mão de alguém em uma imagem. Se as ferramentas de geração se tornarem mais sofisticadas, pode ser mais difícil para os humanos encontrar as principais discrepâncias.
Independentemente das progressões futuras, as ferramentas de detecção podem ser mais úteis do que nossas próprias habilidades de dedução na classificação de conteúdo gerado por IA, e há várias opções disponíveis.
Abaixo, examinaremos alguns deles e avaliaremos sua eficácia usando um parágrafo gerado por IA do Assistente de conteúdo da HubSpot (que usa GPT). Aqui está o que ele me deu quando pedi para escrever um parágrafo sobre cachorros:
“Os cães são criaturas simplesmente incríveis. Eles são leais, amorosos e infinitamente divertidos. Se você precisa de um amigo peludo para abraçar no sofá ou um companheiro leal para explorar o ar livre, os cães estão sempre prontos para a tarefa. Eles vêm em todas as formas e tamanhos, desde minúsculos Chihuahuas até majestosos Dogues Alemães, mas todos os cães compartilham uma coisa em comum: uma capacidade ilimitada de amor e carinho. Quer você seja um amante de cães por toda a vida ou um recém-chegado ao mundo da companhia canina, nunca houve um momento melhor para descobrir as alegrias da vida com um amigo peludo ao seu lado.
Observe que a escrita humana ainda pode acionar uma ferramenta se ela seguir um padrão previsível.
1. ZeroGPT
- Preço: Gratuito ou entre em contato para API personalizada
- Testes para: ChatGPT e Google Bard
O algoritmo do ZeroGPT é treinado em mais de 10 milhões de artigos e textos para ter uma taxa de precisão de detecção de 98%. Ele suporta texto multilíngue e detecta geradores de linguagem populares como Chat GPT, GPT-4 e Google Bard. As saídas destacam as frases com maior probabilidade de serem escritas pela IA.
Eu inseri o parágrafo gerado por AI sobre cães, e ele previu que o texto é 88,57% gerado por AI/GPT.
Melhor para: ZeroGPT foi criado para que educadores testem conteúdo gerado por IA, mas funciona para quem procura detectar conteúdo de IA.
2. Sala de teste de modelo de linguagem gigante
- Preço: Gratuito
- Testes para : Desenvolvido em 2019 para texto GPT-2, pode não ser confiável em outros geradores
O laboratório de IA do MIT-IBM Watson e o grupo Harvard NLP criaram a sala de teste do modelo de linguagem gigante para detectar texto gerado por IA. Ele analisa as entradas com base na probabilidade de cada palavra aparecer com base na palavra imediatamente à esquerda. Quanto mais previsível for a palavra, maior a probabilidade de o texto ser escrito por IA.
Essa ferramenta não fornece uma porcentagem, mas codifica palavras com cores com base em sua previsibilidade, com verde significando que a palavra faz parte das 10 palavras mais previsíveis.
A maior parte do meu parágrafo está destacada em verde, então as palavras fazem parte das 10 mais previsíveis (com base no contexto) e com maior probabilidade de serem geradas por IA.
Melhor para: Testar o GPT-2 e aprender mais sobre escrita previsível por meio de uma análise de probabilidade aprofundada.
3. Originalidade.IA
- Preço: teste gratuito de 50 créditos, depois US$ 0,01/100 palavras (1 crédito digitaliza 100 palavras)
- Testes para: ChatGPT, GPT-3, GPT-3.5, GPT-NEO, GPT-J
Originality.AI Chrome Extension, desenvolvida por especialistas em marketing de conteúdo, detecta várias versões do GPT com 94% de precisão. Ele pontua o texto em uma escala de 0 a 100, com uma pontuação mais alta sendo uma maior probabilidade de ser produzido por IA. Você também pode usar a ferramenta para verificar se há plágio (benéfico para educadores). É o mais preciso com mais de 50 palavras.
Com meu teste, disse que o parágrafo tinha 99% de probabilidade de ter sido escrito por IA.
Melhor para: A extensão do Chrome o torna perfeito para quem procura um processo de detecção contínuo e imediato ao escrever e ler online. Escritores, profissionais de marketing de conteúdo e editores da Web podem aproveitar essa ferramenta; não para acadêmicos.
4. Conteúdo em escala
- Preço: versão gratuita ou entre em contato para preços de API
- Testes para: GPT
O Detector de IA do Content at Scale usa 3 mecanismos de IA e processamento de linguagem natural para detectar o ChatGPT, todas as versões do GPT e outros geradores. Você pode usá-lo para testar conteúdo de SEO, educacional e de marketing. A ferramenta precisa de pelo menos 25 palavras para resultados confiáveis e você pode inserir até 25.000 caracteres.
Meus resultados de teste foram inconclusivos porque a ferramenta não podia dizer com certeza se o parágrafo foi gerado por IA. Deu uma pontuação de conteúdo humano de 51% com 17% de previsibilidade.
Ele disse com certeza que a última frase é gerada por IA.
Melhor para: criadores de conteúdo focados em SEO e marketing para obter detalhamentos de texto linha por linha e analisar partes mais longas de conteúdo (até 25.000 caracteres).
5. Escritor AI
- Preço: versão gratuita ou entre em contato para preços de API
- Testes para: ChatGPT e outros geradores
O detector de conteúdo do Writer AI estima quanto texto é gerado por IA. As versões gratuita e paga têm um limite de 300 palavras (1.500 caracteres) e os resultados fornecem uma porcentagem de previsão de quanto do texto é conteúdo gerado por humanos.
Ele marcou meu parágrafo como 87% gerado por humanos, com uma recomendação para editar o texto até que haja menos conteúdo de IA detectável.
Melhor para: B2B e empresas e agências que procuram analisar e editar conteúdo antes de publicar.
6. Ferramentas de detecção de IA da Hive
- Preço: demonstração gratuita, entre em contato com vendas para preços de API
- Testes para: ChatGPT, GPT-3, DALL-E, Midjourney, Stable Diffusion
O Hive oferece um conjunto de ferramentas de detecção de IA para imagens, texto e deepfakes.
A ferramenta de detecção de texto fornece uma pontuação de confiança para a probabilidade de algo ser gerado por IA e estima quais seções são mais previsíveis. Ele também estima quais seções de texto têm maior probabilidade de serem geradas por IA. Funciona a partir de 750 caracteres com um comprimento recomendado de 1500 caracteres.
Tive que inserir palavras extras para atingir o limite de caracteres, e ele previu que o parágrafo tinha 99,99% de probabilidade de conter conteúdo gerado por IA.
A ferramenta de reconhecimento de mídia identifica a mídia gerada por IA, fornece uma classificação (gerada por IA ou não), pontuação de confiança (≤ 1) e fonte de geração de imagem (como DALL-E). (Documentação, página da ferramenta)
A ferramenta de detecção de deepfake testa se imagens ou vídeos são deepfakes por meio da classificação facial. (Documentação)
Melhor para: trabalho de triagem para detectar conteúdo de IA ou para sites para detectar e moderar imagens e textos gerados por IA.
7. Bônus: classificador de texto do OpenAI
- Preço: Gratuito (requer conta)
- Testes para: Todas as versões do GPT
O classificador de texto do OpenAI pode distinguir entre texto gerado por IA e texto escrito por humanos. Funciona melhor com mais de 1.000 caracteres e texto em inglês.
O OpenAI observa que não é totalmente confiável e apenas identifica corretamente 26% do texto AI e rotula incorretamente o texto escrito por humanos como AI 9% das vezes, mas a confiabilidade aumenta para textos mais longos. Ele recomenda o uso do classificador como complemento a outros métodos de teste.
Melhor para: Detectar GPT
Qual é a melhor ferramenta de detecção de IA?
Descrevi a pontuação do teste individual de cada ferramenta acima, mas aqui está uma tabela comparando as pontuações.
Ferramenta | pontuação |
ZeroGPT | 88,57% de conteúdo de IA |
Sala de Teste de Modelo de Linguagem Gigante | Apenas probabilidade |
Originalidade.IA | 99% de conteúdo de IA |
Conteúdo em escala | 49% de conteúdo de IA |
Escritor AI | 13% de conteúdo de IA |
colmeia | 99,99% de conteúdo de IA |
Com base nessas classificações,
- O primeiro lugar é um empate entre Originality.AI, GLTR e Hive AI
- O segundo lugar é ZeroGPT
- O terceiro lugar é o Writer AI
- O quarto lugar é Conteúdo em escala
Para você
A detecção de IA torna muito mais fácil distinguir entre texto gerado por máquina e texto gerado por humanos. À medida que as ferramentas de IA se tornam cada vez mais precisas, a detecção de IA continuará sendo importante para ajudar as pessoas a determinar a legitimidade do conteúdo que consomem.