Comment empêcher le scraping de contenu sur un site WordPress (5 façons)

Publié: 2023-07-27


En tant que propriétaire de site Web, il peut être frustrant de consacrer du temps et des efforts à la création d'un contenu de qualité, uniquement pour que quelqu'un vienne le voler. Par conséquent, il est très important de prendre des mesures pour empêcher le scraping de contenu sur votre site. ‍

Par exemple, vous pouvez apporter des modifications à votre flux RSS ou afficher un avis de droit d'auteur. Ou, vous pouvez ajouter de nombreux liens internes pour décourager les robots et les escrocs de voler votre matériel.

Une introduction au scraping de contenu

Le scraping de contenu se produit lorsqu'un utilisateur vole du contenu de votre site et le republie lui-même. Bien que cela se fasse généralement automatiquement à l'aide du flux RSS de votre site, cela peut également être effectué manuellement, en utilisant un copier-coller. Toutes sortes de contenus peuvent être copiés, y compris du texte, des images et des vidéos.

Habituellement, le voleur affichera simplement votre contenu sur son site Web comme s'il s'agissait de son propre matériel original. Parfois, l'utilisateur peut ajouter un lien vers votre site. Cependant, comme ils utilisent toujours votre contenu sans votre consentement, cela peut être tout aussi frustrant.

C'est aussi illégal. Le scraping de contenu est une violation des lois sur le droit d'auteur et des droits de propriété intellectuelle, et les coupables peuvent être poursuivis par le créateur d'origine.

Il existe de nombreuses raisons pour lesquelles les scrapers choisissent de voler du contenu. Par exemple, une entreprise ou un particulier peut essayer d'établir une autorité dans un domaine spécifique en alimentant son site avec des informations de haute qualité.

Cependant, pour gagner du temps, ils peuvent prendre des idées ou des paragraphes entiers de votre propre site Web. Ou, ils peuvent remplir votre contenu avec des publicités pour monétiser leur propre site Web en utilisant votre matériel.

Alternativement, les spécialistes du marketing affilié peuvent gagner du trafic organique via les moteurs de recherche en utilisant votre contenu. Ensuite, ils peuvent attirer un large bassin de clients potentiels pour vendre ou promouvoir leurs produits affiliés ️.

Comment empêcher le scraping de contenu sur un site WordPress

Maintenant que vous en savez un peu plus sur le scraping de contenu, examinons cinq façons d'empêcher le scraping de contenu sur WordPress :

  1. Afficher un avis de droit d'auteur
  2. Apporter des modifications à votre flux RSS
  3. Bloquer l'adresse IP du scraper
  4. Protégez vos images
  5. Ajouter de nombreux liens internes

1. Afficher une notice de copyright

Les lois sur le droit d'auteur protègent vos droits de propriété intellectuelle, y compris votre nom de marque, votre logo et tout autre contenu. Par conséquent, lorsqu'un scraper commet un vol de contenu sur votre site, il enfreint en fait la loi.

Bien que cela ne dissuade pas les grattoirs dédiés, vous pouvez afficher un avis de droit d'auteur sur votre site Web. La pratique est toujours illégale malgré tout. Cependant, de cette façon, vous pouvez indiquer clairement que les utilisateurs ne peuvent pas utiliser votre contenu sans autorisation.

C'est une bonne idée d'ajouter l'avis de droit d'auteur au pied de page de votre site Web. Ou, vous pouvez ajouter un lien vers vos termes et conditions complets :

Le site Web de Starbucks utilise un avis de droit d'auteur pour empêcher le scraping de contenu.

Le pied de page est un endroit idéal pour votre avis de droit d'auteur puisqu'il s'affichera sur toutes vos pages Web.

De plus, un avis de droit d'auteur peut être utile si vous devez déposer une plainte DMCA pour faire remonter le problème. Si vous voulez aller plus loin, faites une demande d'enregistrement des droits d'auteur. Cependant, vous pourriez avoir besoin d'une assistance juridique car il s'agit d'un processus assez délicat.

Comme nous l'avons mentionné précédemment, si un grattoir vole automatiquement votre contenu, il s'appuie sur le flux RSS de votre site. Par conséquent, c'est une bonne idée d'apporter une petite modification à votre flux pour éviter le scraping de contenu dans WordPress.

Le changement le plus simple à faire est de fournir un résumé de chaque message dans votre flux RSS, plutôt que d'inclure le contenu complet. Dans ce cas, tout ce que le scraper peut copier est votre extrait de publication et des métadonnées telles que la date et l'auteur.

Pour le configurer dans WordPress, rendez-vous simplement dans Paramètres > Lecture depuis votre tableau de bord. Faites défiler jusqu'à ce que vous voyiez Pour chaque publication dans un flux, inclure et sélectionnez Extrait :

Afficher le flux RSS sous forme d'extraits.

Ensuite, cliquez sur Enregistrer les modifications pour mettre à jour votre site.

3. Bloquer l'adresse IP du scraper

L'un des moyens les plus simples d'empêcher le scraping de contenu sur votre site consiste simplement à bloquer l'adresse IP malveillante. Un plugin de sécurité comme un pare-feu d'application Web (WAF) le fera automatiquement.

Un WAF fonctionne en surveillant tout le trafic entrant sur votre site Web. Ensuite, il reconnaîtra et bloquera toute adresse IP qu'il considère comme un risque de sécurité.

Mieux encore, il existe de nombreuses options gratuites comme Sucuri et Wordfence pour commencer :

Cependant, vous pouvez également bloquer manuellement l'adresse IP d'un scraper si vous êtes un utilisateur plus expérimenté. Vous pouvez soit le faire via les journaux d'accès bruts à partir de votre tableau de bord cPanel. Ou, vous pouvez accéder à votre fichier .htaccess via le Gestionnaire de fichiers ou FTP.

Une fois que vous avez localisé et ouvert le fichier .htaccess , ajoutez simplement la ligne de code suivante, en remplaçant les chiffres par l'adresse IP que vous souhaitez bloquer :

 Deny from 111.222.333.444.

Pour bloquer plusieurs adresses IP, saisissez-les sur la même ligne du fichier, mais séparez-les par des espaces.

Soyez prudent lorsque vous effectuez cette opération, cependant. C'est toujours une bonne idée d'avoir une sauvegarde de votre fichier . htaccess au cas où vous vous empêcheriez d'accéder à votre propre site.

4. Protégez vos images (désactivez le hotlinking et ajoutez des filigranes)

Bien que le texte puisse être extrait de votre site, les images peuvent également être ciblées. Par conséquent, vous pouvez désactiver le hotlinking et ajouter des filigranes à vos images pour empêcher le scraping de contenu sur votre site WordPress.

Le lien dynamique se produit lorsqu'un utilisateur affiche vos images sur son propre site Web, mais charge l'image à partir de votre serveur. En tant que tel, il augmente votre utilisation de la bande passante car il utilise les ressources de votre serveur pour afficher l'image.

Pour désactiver manuellement le hotlinking, vous devrez accéder à votre fichier .htaccess via le gestionnaire de fichiers ou FTP. Ensuite, collez le code suivant dans le fichier :

 /* Prevent image hotlinking in WordPress */ RewriteCond %HTTP_REFERER !^$ RewriteCond %HTTP_REFERER !^http(s)?://(www.)?yourwebsite.com [NC] RewriteCond %HTTP_REFERER !^http(s)?://(www.)?google.com [NC] RewriteCond %HTTP_REFERER !^http(s)?://(www.)?facebook.com [NC] RewriteCond %HTTP_REFERER !^http(s)?://(www.)?twitter.com [NC] RewriteCond %HTTP_REFERER !^http(s)?://(www.)?other-websites-go-here.com [NC] RewriteRule .(jpg|jpeg|png|gif)$ - [F]

Ce code empêche tout site Web (autre que Google, Facebook, Twitter et votre propre site) d'utiliser vos images. De plus, vous pouvez ajouter ou supprimer des formats de fichier de la dernière ligne pour déterminer les images auxquelles appliquer la prévention des liens.

Désormais, vous pouvez également filigraner vos images WordPress pour empêcher le vol de contenu sur votre site. Notez que cela obscurcira légèrement vos images puisque le filigrane interférera avec l'image :

iStock filigrane les images pour empêcher le scraping de contenu.

Image Watermark est un plugin WordPress gratuit qui filigrane automatiquement les nouvelles images que vous téléchargez. En attendant, il vous permet de filigraner en masse des images existantes sur votre site.

L'ajout de filigranes peut créer un obstacle pour les voleurs potentiels. Les grattoirs peuvent réfléchir à deux fois avant d'utiliser vos photos sur leurs sites Web, car il serait assez clair que les images appartiennent à quelqu'un d'autre.

5. Ajoutez de nombreux liens internes

La dernière stratégie pour empêcher le scraping de contenu sur WordPress consiste à ajouter de nombreux liens internes à vos publications. Plutôt que de rendre votre contenu difficile à gratter, cela garantit que si le contenu est gratté, vous bénéficierez toujours de l'acte.

Par exemple, tous les liens internes de vos publications vous rapporteront de précieux backlinks depuis le site du scraper. Et puisque les backlinks sont un élément clé de toute stratégie de référencement de qualité, c'est un moyen facile d'améliorer votre classement de recherche.

Plus que cela, les liens internes vous permettent de détourner le trafic du site du scraper vers le vôtre. Ensuite, vous pouvez vous assurer que ces visiteurs restent sur votre site Web en publiant du matériel de haute qualité, en offrant des temps de chargement rapides et en mettant en œuvre une navigation facile sur le site Web.

Conclusion

Le scraping de contenu n'est pas seulement frustrant, il est également illégal car il implique que d'autres volent votre propriété intellectuelle. Heureusement, certaines techniques peuvent dissuader les gens de copier votre texte, vos images et vos vidéos.

Pour récapituler, voici cinq stratégies pour empêcher le scraping de contenu dans WordPress :

  1. Afficher un avis de droit d'auteur.
  2. Apportez des modifications à votre flux RSS.
  3. Bloquez l'adresse IP du scraper.
  4. Protégez vos images (désactivez le hotlinking et ajoutez des filigranes).
  5. Ajoutez de nombreux liens internes.

Avez-vous des questions sur les lois sur le droit d'auteur ou les pratiques de récupération de contenu ? Faites-nous savoir dans la section commentaires ci-dessous!