Cómo evitar el raspado de contenido en un sitio de WordPress (5 formas)

Publicado: 2023-07-27


Como propietario de un sitio web, puede ser frustrante dedicar tiempo y esfuerzo a crear un gran contenido, solo para que alguien venga y lo robe. Por lo tanto, es muy importante tomar medidas para evitar el raspado de contenido en su sitio. ‍

Por ejemplo, puede realizar cambios en su fuente RSS o mostrar un aviso de derechos de autor. O bien, puede agregar muchos enlaces internos para disuadir a los bots y estafadores de robar su material.

Una introducción al raspado de contenido

El scraping de contenido ocurre cuando un usuario roba contenido de tu sitio y lo vuelve a publicar por su cuenta. Si bien esto generalmente se hace automáticamente usando la fuente RSS de su sitio, también se puede realizar manualmente, usando copiar y pegar. Se puede copiar todo tipo de contenido, incluidos texto, imágenes y videos.

Por lo general, el ladrón simplemente mostrará su contenido en su sitio web como si fuera su propio material original. A veces, el usuario puede agregar un enlace a su sitio. Sin embargo, dado que todavía usan su contenido sin su consentimiento, esto puede ser igual de frustrante.

También es ilegal. El scraping de contenido es una violación de las leyes de derechos de autor y los derechos de propiedad intelectual, y el creador original puede demandar a los culpables.

Hay muchas razones por las que los scrapers eligen robar contenido. Por ejemplo, una empresa o individuo puede tratar de establecer autoridad dentro de un campo específico llenando su sitio con información de alta calidad.

Sin embargo, para ahorrar tiempo, pueden extraer ideas o párrafos completos de su propio sitio web. O bien, pueden llenar su contenido con anuncios para monetizar su propio sitio web utilizando su material.

Alternativamente, los vendedores afiliados pueden obtener tráfico orgánico a través de los motores de búsqueda al usar su contenido. Luego, pueden atraer a un gran grupo de clientes potenciales para vender o promocionar sus productos afiliados ️.

Cómo evitar el raspado de contenido en un sitio de WordPress

Ahora que sabe un poco más sobre el scraping de contenido, echemos un vistazo a cinco formas de evitar el scraping de contenido en WordPress:

  1. Mostrar un aviso de derechos de autor
  2. Haz cambios en tu fuente RSS
  3. Bloquear la dirección IP del raspador
  4. Proteja sus imágenes
  5. Agrega muchos enlaces internos

1. Mostrar un aviso de derechos de autor

Las leyes de derechos de autor protegen sus derechos de propiedad intelectual, incluido su nombre de marca, logotipo y otro contenido. Por lo tanto, cuando un rastreador comete robo de contenido en su sitio, en realidad está infringiendo la ley.

Aunque es posible que no disuada a los raspadores dedicados, puede mostrar un aviso de derechos de autor en su sitio web. La práctica sigue siendo ilegal a pesar de todo. Sin embargo, de esta manera, puede dejar muy claro que los usuarios no pueden usar su contenido sin permiso.

Es una buena idea agregar el aviso de derechos de autor al pie de página de su sitio web. O bien, puede agregar un enlace a sus términos y condiciones completos:

El sitio web de Starbucks utiliza un aviso de derechos de autor para ayudar a evitar el raspado de contenido.

El pie de página es un excelente lugar para su aviso de derechos de autor, ya que se mostrará en todas sus páginas web.

Además, un aviso de derechos de autor puede ser útil si necesita presentar una queja de DMCA para escalar el problema. Si desea ir un paso más allá, solicite el registro de derechos de autor. Sin embargo, es posible que necesite asistencia legal con esto, ya que es un proceso bastante complicado.

Como mencionamos anteriormente, si un raspador roba su contenido automáticamente, se basan en la fuente RSS de su sitio. Por lo tanto, es una buena idea hacer un pequeño cambio en tu feed para evitar el scraping de contenido en WordPress.

El cambio más simple que puede hacer es proporcionar un resumen de cada publicación en su fuente RSS, en lugar de incluir el contenido completo. En este caso, todo lo que el raspador puede copiar es el extracto de su publicación y metadatos como la fecha y el autor.

Para configurar esto en WordPress, simplemente diríjase a Configuración > Lectura desde su tablero. Desplácese hasta que vea Para cada publicación en un feed, incluya y seleccione Extracto :

Muestra la fuente RSS como extractos.

Luego, haga clic en Guardar cambios para actualizar su sitio.

3. Bloquee la dirección IP del raspador

Una de las formas más sencillas de evitar el raspado de contenido en su sitio es simplemente bloquear la dirección IP maliciosa. Un complemento de seguridad como Web Application Firewall (WAF) lo hará automáticamente.

Un WAF funciona monitoreando todo el tráfico entrante a su sitio web. Luego, reconocerá y bloqueará cualquier dirección IP que considere un riesgo de seguridad.

Mejor aún, hay muchas opciones gratuitas como Sucuri y Wordfence para comenzar:

Sin embargo, también puede bloquear la dirección IP de un raspador manualmente si es un usuario más experimentado. Puede hacerlo a través de los registros de acceso sin procesar desde su panel de control de cPanel. O bien, puede acceder a su archivo .htaccess a través del Administrador de archivos o FTP.

Una vez que localice y abra el archivo .htaccess , simplemente agregue la siguiente línea de código, reemplazando los números con la dirección IP que desea bloquear:

 Deny from 111.222.333.444.

Para bloquear varias direcciones IP, introdúzcalas en la misma línea del archivo, pero sepárelas con espacios.

Sin embargo, tenga cuidado al realizar esta operación. Siempre es una buena idea tener una copia de seguridad de su archivo . htaccess en caso de que se bloquee el acceso a su propio sitio.

4. Proteja sus imágenes (desactive los enlaces directos y agregue marcas de agua)

Si bien el texto se puede tomar de su sitio, las imágenes también se pueden orientar. Por lo tanto, puede deshabilitar los enlaces directos y agregar marcas de agua a sus imágenes para evitar el raspado de contenido en su sitio de WordPress.

El hotlinking ocurre cuando un usuario muestra sus imágenes en su propio sitio web, pero carga la imagen desde su servidor. Como tal, aumenta su uso de ancho de banda ya que utiliza los recursos de su servidor para mostrar la imagen.

Para deshabilitar el hotlinking manualmente, deberá acceder a su archivo .htaccess a través del Administrador de archivos o FTP. Luego, pegue el siguiente código en el archivo:

 /* Prevent image hotlinking in WordPress */ RewriteCond %HTTP_REFERER !^$ RewriteCond %HTTP_REFERER !^http(s)?://(www.)?yourwebsite.com [NC] RewriteCond %HTTP_REFERER !^http(s)?://(www.)?google.com [NC] RewriteCond %HTTP_REFERER !^http(s)?://(www.)?facebook.com [NC] RewriteCond %HTTP_REFERER !^http(s)?://(www.)?twitter.com [NC] RewriteCond %HTTP_REFERER !^http(s)?://(www.)?other-websites-go-here.com [NC] RewriteRule .(jpg|jpeg|png|gif)$ - [F]

Este código evita que cualquier sitio web (que no sea Google, Facebook, Twitter y su propio sitio) use sus imágenes. Además, puede agregar o eliminar formatos de archivo de la última línea para determinar a qué imágenes aplicar la prevención de enlaces directos.

Ahora, también puede marcar con agua sus imágenes de WordPress para evitar el robo de contenido en su sitio. Tenga en cuenta que esto oscurecerá ligeramente sus imágenes ya que la marca de agua interferirá con la imagen:

iStock marcas de agua imágenes para evitar el raspado de contenido.

Image Watermark es un complemento gratuito de WordPress que marca automáticamente las nuevas imágenes que carga. Mientras tanto, le permite agregar marcas de agua masivas a las imágenes existentes en su sitio.

Agregar marcas de agua puede crear un obstáculo para los posibles ladrones. Los scrapers pueden pensar dos veces antes de usar sus fotos en sus sitios web, ya que sería bastante claro que las imágenes pertenecen a otra persona.

5. Agrega muchos enlaces internos

La estrategia final para evitar el raspado de contenido en WordPress es agregar muchos enlaces internos a sus publicaciones. En lugar de hacer que su contenido sea difícil de raspar, esto garantiza que si se raspa el contenido, aún se beneficiará del acto.

Por ejemplo, todos los enlaces internos en sus publicaciones le darán valiosos backlinks del sitio del raspador. Y dado que los vínculos de retroceso son una parte clave de cualquier estrategia de SEO de calidad, esta es una manera fácil de mejorar su clasificación de búsqueda.

Más que eso, los enlaces internos le permiten desviar el tráfico del sitio del raspador hacia el suyo. Luego, puede asegurarse de que estos visitantes permanezcan en su sitio web publicando material de alta calidad, brindando tiempos de carga rápidos e implementando una navegación fácil del sitio web.

Conclusión

El scraping de contenido no solo es frustrante, sino que también es ilegal, ya que implica que otros roben tu propiedad intelectual. Afortunadamente, existen ciertas técnicas que pueden disuadir a las personas de copiar su texto, imágenes y videos.

En resumen, aquí hay cinco estrategias para evitar el scraping de contenido en WordPress:

  1. Mostrar un aviso de derechos de autor.
  2. Realice cambios en su fuente RSS.
  3. Bloquea la dirección IP del raspador.
  4. Proteja sus imágenes (desactive los enlaces directos y agregue marcas de agua).
  5. Agrega muchos enlaces internos.

¿Tiene alguna pregunta sobre las leyes de derechos de autor o las prácticas de extracción de contenido? ¡Háganos saber en la sección de comentarios!