Cómo identificar texto e imágenes generados por IA [+ Herramientas de detección]
Publicado: 2023-04-11El contenido generado por IA es un desarrollo fascinante, y estamos viendo cada vez más artículos, historias e imágenes creadas por herramientas de IA. (Gracias, AI, por la oración de introducción).
Sin embargo, el auge de las herramientas avanzadas de generación de IA ha expuesto problemas potenciales, desde que las personas no pueden detectar la diferencia entre la IA y las generaciones humanas hasta que las predicciones y el análisis de la IA son totalmente erróneos.
Aquí es donde entra en juego la detección de IA, ya que es una forma de que las personas descubran cuándo el texto, las imágenes e incluso los videos son generados por máquinas, para que puedan tomar decisiones informadas sobre el contenido que consumen. En esta publicación, cubriremos:
¿Qué es la detección de IA?
La detección de IA consiste en averiguar si el contenido es de IA o generado por humanos, generalmente con la ayuda de una herramienta de detección de IA que utiliza aprendizaje automático y procesamiento de lenguaje natural para identificar patrones. Si el contenido sigue un patrón más predecible, es probable que una herramienta lo clasifique como generado por IA.
Las herramientas de detección de IA no conocen el significado de las palabras y usan el contexto para analizar el texto. Para ser más técnicos, las herramientas usan el contexto de lo que está a la izquierda de la siguiente palabra para predecir la probabilidad de la palabra a la derecha.
Cuanto más predecible sea la palabra a la derecha, más probable es que el texto sea generado por IA. Por otro lado, las oraciones escritas por humanos varían de patrones predecibles y son más creativas.
Si eres como yo, un ejemplo básico podría ser útil para entender esto. Vamos a desglosarlo.
Digamos que alguien ingresa la oración, "Los conejitos son tan esponjosos".
La herramienta utiliza datos aprendidos y el contexto de las palabras a la izquierda de "esponjoso" para predecir que es más probable que aparezca "esponjoso", más que palabras como "lindo" o "suave".
Dado que la oración sigue un patrón altamente predecible, la herramienta probablemente clasificará el texto como generado por IA.
Las herramientas de detección de IA funcionan a una escala mucho mayor con oraciones y párrafos más complejos que "Los conejitos son tan esponjosos" para hacer predicciones y clasificaciones, pero este es un ejemplo básico y muestra cómo funciona el proceso.
Algunas herramientas de detección analizan imágenes y videos y usan anomalías de píxeles para determinar si algo es generado por IA.
Cómo detectar texto generado por IA
No hay reglas o pautas establecidas para identificar el texto generado por IA, pero aquí hay algunas cosas que debe tener en cuenta:
- Repetición de palabras y frases: la IA sabe de qué está hablando, pero no tanto como lo saben los expertos humanos. Sus resultados pueden repetir las mismas palabras clave y frases con poca variación cuando se habla de un tema.
- Falta de profundidad: las herramientas de generación carecen de profundidad y no pueden ir más allá de los hechos básicos para analizar realmente un tema y desarrollar una visión única. El texto generado por IA puede leerse más robótico y prescriptivo que creativo y tener un tono genérico.
- Información inexacta y desactualizada: los hechos que tienen las herramientas de generación de contenido suelen ser correctos, pero dado que las herramientas hacen predicciones, los resultados pueden ser incorrectos o no estar relacionados con hechos reales. Además, la información puede estar desactualizada, como cuando ChatGPT se limita a la información anterior a septiembre de 2021.
- Formato y estructura: las herramientas de generación siguen la misma estructura de oraciones que los humanos, pero las oraciones pueden ser más cortas y carecer de la complejidad, la creatividad y la variedad de estructuras de oraciones que producen los humanos. El contenido se puede simplificar y uniformar con poca variación.
El texto escrito por humanos también es más probable que tenga errores tipográficos y use lenguaje y escoria informal y casual.
Roft.io es un juego divertido para poner a prueba tus habilidades de detección y ver qué tan bueno eres para predecir cuándo el texto es generado por IA.
Cómo detectar imágenes y videos generados por IA
Identificar imágenes y videos generados por IA puede ser un poco más desafiante que detectar texto. Algunas indicaciones comúnmente discutidas son:
- Fondos texturizados, imágenes que parecen retocadas con aerógrafo, pinceladas aleatorias en todas las imágenes
- Nitidez general de la imagen, o partes de las imágenes que están borrosas mientras que otras son más claras
- Texto perceptible en el fondo de las imágenes
- Asimetría en rostros humanos, dientes y manos.
- Signos de marcas de agua o firmas de artistas (las herramientas de IA se entrenan a partir de obras de arte existentes)
Herramientas como DALL-E 2 colocan una marca de agua en las salidas de imagen, pero es posible que no sean fáciles de detectar. OpenAI también permite que las personas eliminen una marca de agua. También puede invertir la búsqueda de imágenes para ver si hay rastros de una imagen en la web.
El desafío de detectar imágenes y videos de IA es la razón por la que las falsificaciones profundas son tan peligrosas, ya que los videos y las imágenes que parecen lo suficientemente realistas pueden difundir rápidamente información errónea.
Herramientas de detección de IA
Por el momento, podría ser más fácil saber si algo es generado por IA porque suena robótico, o si a alguien le faltan dos dedos en la mano en una imagen. Si las herramientas de generación se vuelven más sofisticadas, podría ser más difícil para los humanos encontrar las discrepancias clave.
Independientemente de las progresiones futuras, las herramientas de detección pueden ser más útiles que nuestras propias habilidades de deducción para clasificar el contenido generado por IA, y hay varias opciones disponibles.
A continuación, repasaremos algunos de ellos y calificaremos su efectividad usando un párrafo generado por IA del Asistente de contenido de HubSpot (que usa GPT). Esto es lo que me dio cuando le pedí que escribiera un párrafo sobre perros:
“Los perros son criaturas simplemente asombrosas. Son leales, cariñosos e infinitamente entretenidos. Ya sea que necesite un amigo peludo para acurrucarse en el sofá o un compañero leal para explorar el aire libre, los perros siempre están listos para la tarea. Vienen en todas las formas y tamaños, desde pequeños chihuahuas de taza de té hasta majestuosos grandes daneses, pero todos los perros comparten una cosa en común: una capacidad ilimitada para el amor y el afecto. Ya seas un amante de los perros de toda la vida o un recién llegado al mundo de la compañía canina, nunca ha habido un mejor momento para descubrir las alegrías de la vida con un amigo peludo a tu lado”.
Tenga en cuenta que la escritura humana aún puede activar una herramienta si sigue un patrón predecible.
1. GPT cero
- Precio: Gratis o contacto para API personalizada
- Pruebas para: ChatGPT y Google Bard
El algoritmo de ZeroGPT está entrenado en más de 10 millones de artículos y texto para tener una tasa de precisión de detección del 98 %. Admite texto multilingüe y detecta generadores de idiomas populares como Chat GPT, GPT-4 y Google Bard. Los resultados resaltan las oraciones con mayor probabilidad de ser escritas por IA.
Ingresé el párrafo generado por IA sobre perros, y predijo que el texto está generado en un 88,57 % por IA/GPT.
Mejor para: ZeroGPT fue creado para que los educadores prueben el contenido generado por IA, pero funciona para cualquiera que busque detectar contenido de IA.
2. Sala de prueba modelo de lenguaje gigante
- Precio: Gratis
- Pruebas para : Desarrollado en 2019 para texto GPT-2, podría no ser confiable en otros generadores
El laboratorio de IA de MIT-IBM Watson y el grupo de NLP de Harvard crearon la sala de pruebas del modelo de lenguaje gigante para detectar texto generado por IA. Analiza las entradas en función de la probabilidad de que aparezca cada palabra en función de la palabra inmediatamente a la izquierda. Cuanto más predecible es la palabra, más probable es que el texto esté escrito por IA.
Esta herramienta no proporciona un porcentaje, sino códigos de color de las palabras en función de su previsibilidad. El verde significa que la palabra forma parte de las 10 palabras más predecibles.
La mayor parte de mi párrafo está resaltado en verde, por lo que las palabras son parte de las 10 más predecibles (según el contexto) y es más probable que sean generadas por IA.
Mejor para: Probar GPT-2 y aprender más sobre la escritura predecible a través de un análisis de probabilidad en profundidad.
3. Originalidad.AI
- Precio: Prueba gratuita de 50 créditos, luego $0.01/100 palabras (1 crédito escanea 100 palabras)
- Pruebas para: ChatGPT, GPT-3, GPT-3.5, GPT-NEO, GPT-J
Originality.AI Chrome Extension, creada por expertos en marketing de contenido, detecta múltiples versiones de GPT con un 94 % de precisión. Califica el texto en una escala de 0 a 100, siendo una puntuación más alta una mayor probabilidad de que sea producido por IA. También puede usar la herramienta para escanear en busca de plagio (beneficioso para los educadores). Es el más preciso con más de 50 palabras.
Con mi prueba, dijo que el párrafo tenía un 99% de probabilidades de haber sido escrito por AI.
Mejor para: la extensión de Chrome lo hace perfecto para cualquier persona que busque un proceso de detección inmediato y sin problemas al escribir y leer en línea. Los escritores, los especialistas en marketing de contenido y los editores web pueden aprovechar esta herramienta; no para académicos.
4. Contenido a escala
- Precio: versión gratuita o póngase en contacto para conocer los precios de la API
- Pruebas para: GPT
Content at Scale's AI Detector utiliza 3 motores de IA y procesamiento de lenguaje natural para detectar ChatGPT, todas las versiones de GPT y otros generadores. Puede usarlo para probar contenido SEO, educativo y de marketing. La herramienta necesita al menos 25 palabras para obtener resultados confiables y puede ingresar hasta 25,000 caracteres.
Los resultados de mi prueba no fueron concluyentes porque la herramienta no podía decir con certeza si el párrafo fue generado por IA. Dio una puntuación de contenido humano del 51 % con una previsibilidad del 17 %.
Dijo con certeza que la última oración es generada por IA.
Ideal para: creadores de contenido centrado en SEO y marketing para obtener desgloses de texto línea por línea y analizar piezas de contenido más largas (hasta 25,000 caracteres).
5. IA del escritor
- Precio: versión gratuita o póngase en contacto para conocer los precios de la API
- Pruebas para: ChatGPT y otros generadores
El detector de contenido de Writer AI calcula la cantidad de texto generado por IA. Las versiones gratuitas y de pago tienen un límite de 300 palabras (1500 caracteres), y los resultados dan un porcentaje de predicción de cuánto del texto es contenido generado por humanos.
Calificó mi párrafo como 87% generado por humanos, con una recomendación para editar el texto hasta que haya menos contenido de IA detectable.
Ideal para: B2B, empresas y agencias que buscan analizar y editar contenido antes de publicarlo.
6. Herramientas de detección de IA de Hive
- Precio: Demostración gratuita, comuníquese con ventas para conocer los precios de la API
- Pruebas para: ChatGPT, GPT-3, DALL-E, Midjourney, Difusión estable
Hive ofrece un conjunto de herramientas de detección de IA para imágenes, texto y falsificaciones profundas.
La herramienta de detección de texto da una puntuación de confianza sobre la probabilidad de que algo sea generado por IA y estima qué secciones son más predecibles. También estima qué secciones de texto tienen más probabilidades de ser generadas por IA. Funciona a partir de 750 caracteres con una longitud recomendada de 1500 caracteres.
Tuve que ingresar palabras adicionales para alcanzar el límite de caracteres, y predijo que el párrafo tenía un 99,99 % de probabilidades de contener contenido generado por IA.
La herramienta de reconocimiento de medios identifica los medios generados por IA, otorga una clasificación (generados por IA o no), un puntaje de confianza (≤ 1) y una fuente de generación de imágenes (como DALL-E). (Documentación, página de herramientas)
La herramienta de detección de deepfakes prueba si las imágenes o videos son deepfakes a través de la clasificación facial. (Documentación)
Recomendado para: trabajo de detección para detectar contenido de IA o para sitios web para detectar y moderar imágenes y texto generados por IA.
7. Bonificación: clasificador de texto de OpenAI
- Precio: Gratis (requiere cuenta)
- Pruebas para: Todas las versiones de GPT
El clasificador de texto de OpenAI puede distinguir entre texto generado por IA y texto escrito por humanos. Funciona mejor con más de 1000 caracteres y texto en inglés.
OpenAI nota que no es del todo confiable y solo identifica correctamente el 26 % del texto de IA y etiqueta incorrectamente el texto escrito por humanos como IA el 9 % de las veces, pero la confiabilidad aumenta para textos más largos. Recomienda usar el clasificador como complemento a otros métodos de prueba.
Lo mejor para: Detectar GPT
¿Cuál es la mejor herramienta de detección de IA?
Describí el puntaje de prueba individual de cada herramienta arriba, pero aquí hay una tabla que compara los puntajes.
Herramienta | puntaje |
CeroGPT | 88,57 % de contenido de IA |
Sala de prueba del modelo de lenguaje gigante | Probabilidad solamente |
Originalidad.AI | 99 % de contenido de IA |
Contenido a escala | 49 % de contenido de IA |
IA de escritor | 13 % de contenido de IA |
Colmena | 99,99 % de contenido de IA |
Con base en estas clasificaciones,
- El primer lugar es un empate entre Originality.AI, GLTR y Hive AI
- El segundo lugar es ZeroGPT
- El tercer lugar es Writer AI
- El cuarto lugar es Contenido a escala
A ti
La detección de IA hace que sea mucho más fácil distinguir entre texto generado por máquina y por humanos. A medida que las herramientas de IA se vuelven cada vez más precisas, la detección de IA seguirá siendo importante para ayudar a las personas a determinar la legitimidad del contenido que consumen.