Come prevenire lo scraping dei contenuti su un sito WordPress (5 modi)

Pubblicato: 2023-07-27


In qualità di proprietario di un sito web, può essere frustrante dedicare tempo e sforzi alla creazione di ottimi contenuti, solo per avere qualcuno che arriva e li ruba. Pertanto, è molto importante adottare misure per impedire lo scraping dei contenuti sul tuo sito. ‍

Ad esempio, puoi apportare modifiche al tuo feed RSS o visualizzare un avviso di copyright. Oppure potresti aggiungere molti collegamenti interni per scoraggiare bot e truffatori dal prelevare il tuo materiale.

Un'introduzione allo scraping dei contenuti

Lo scraping dei contenuti si verifica quando un utente ruba contenuti dal tuo sito e li ripubblica da solo. Mentre questo di solito viene fatto automaticamente utilizzando il feed RSS del tuo sito, può anche essere eseguito manualmente, usando copia e incolla. È possibile copiare tutti i tipi di contenuto, inclusi testo, immagini e video.

Di solito, il ladro mostrerà semplicemente i tuoi contenuti sul loro sito web come se fosse il loro materiale originale. A volte, l'utente può aggiungere un collegamento al tuo sito. Tuttavia, poiché stanno ancora utilizzando i tuoi contenuti senza il tuo consenso, questo può essere altrettanto frustrante.

È anche illegale. Lo scraping dei contenuti è una violazione delle leggi sul copyright e dei diritti di proprietà intellettuale e i colpevoli possono essere citati in giudizio dal creatore originale.

Ci sono molte ragioni per cui gli scraper scelgono di rubare contenuti. Ad esempio, un'azienda o un individuo può tentare di stabilire l'autorità all'interno di un campo specifico popolando il proprio sito con informazioni di alta qualità.

Tuttavia, per risparmiare tempo, possono prelevare idee o interi paragrafi dal tuo sito web. Oppure possono popolare i tuoi contenuti con annunci per monetizzare il proprio sito Web utilizzando il tuo materiale.

In alternativa, i marketer di affiliazione possono ottenere traffico organico attraverso i motori di ricerca utilizzando i tuoi contenuti. Quindi, possono attrarre un ampio bacino di potenziali clienti per vendere o promuovere i loro prodotti di affiliazione ️.

Come prevenire lo scraping dei contenuti su un sito WordPress

Ora che ne sai qualcosa in più sullo scraping dei contenuti, diamo un'occhiata a cinque modi per prevenire lo scraping dei contenuti su WordPress:

  1. Visualizza un avviso di copyright
  2. Apporta modifiche al tuo feed RSS
  3. Blocca l'indirizzo IP dello scraper
  4. Proteggi le tue immagini
  5. Aggiungi molti link interni

1. Visualizzare un avviso di copyright

Le leggi sul copyright proteggono i tuoi diritti di proprietà intellettuale, inclusi il nome del tuo marchio, il logo e altri contenuti. Pertanto, quando uno scraper commette il furto di contenuti sul tuo sito, in realtà sta infrangendo la legge.

Anche se potrebbe non scoraggiare gli scraper dedicati, puoi visualizzare un avviso di copyright sul tuo sito web. La pratica è ancora illegale a prescindere. Tuttavia, in questo modo, puoi chiarire chiaramente che gli utenti non possono utilizzare i tuoi contenuti senza autorizzazione.

È una buona idea aggiungere l'avviso di copyright a piè di pagina del tuo sito web. In alternativa, puoi aggiungere un collegamento ai tuoi termini e condizioni completi:

Il sito Web di Starbucks utilizza un avviso di copyright per impedire lo scraping dei contenuti.

Il piè di pagina è un ottimo posto per il tuo avviso di copyright poiché verrà visualizzato su tutte le tue pagine web.

Inoltre, un avviso di copyright può tornare utile se è necessario presentare un reclamo DMCA per intensificare il problema. Se vuoi fare un ulteriore passo avanti, richiedi la registrazione del copyright. Tuttavia, potresti aver bisogno di assistenza legale con questo poiché è un processo piuttosto complicato.

Come accennato in precedenza, se uno scraper ruba automaticamente i tuoi contenuti, si affida al feed RSS del tuo sito. Pertanto, è una buona idea apportare una piccola modifica al tuo feed per evitare lo scraping dei contenuti in WordPress.

La modifica più semplice da apportare è fornire un riepilogo di ogni post nel tuo feed RSS, piuttosto che includere l'intero contenuto. In questo caso, tutto ciò che lo scraper può copiare è l'estratto del tuo post e metadati come la data e l'autore.

Per configurarlo in WordPress, vai semplicemente su Impostazioni > Lettura dalla tua dashboard. Scorri fino a visualizzare Per ogni post in un feed, includi e seleziona Estratto :

Visualizza feed RSS come estratti.

Quindi, fai clic su Salva modifiche per aggiornare il tuo sito.

3. Blocca l'indirizzo IP dello scraper

Uno dei modi più semplici per impedire lo scraping dei contenuti sul tuo sito è semplicemente bloccare l'indirizzo IP dannoso. Un plug-in di sicurezza come un Web Application Firewall (WAF) lo farà automaticamente.

Un WAF funziona monitorando tutto il traffico in entrata sul tuo sito web. Quindi, riconoscerà e bloccherà qualsiasi indirizzo IP che ritenga un rischio per la sicurezza.

Meglio ancora, ci sono molte opzioni gratuite come Sucuri e Wordfence per iniziare:

Tuttavia, puoi anche bloccare manualmente l'indirizzo IP di uno scraper se sei un utente più esperto. Puoi farlo tramite i registri di accesso non elaborati dalla dashboard di cPanel. Oppure puoi accedere al tuo file .htaccess tramite File Manager o FTP.

Una volta individuato e aperto il file .htaccess , aggiungi semplicemente la seguente riga di codice, sostituendo i numeri con l'indirizzo IP che desideri bloccare:

 Deny from 111.222.333.444.

Per bloccare più indirizzi IP, inseriscili nella stessa riga del file, ma separali con spazi.

Fai attenzione quando esegui questa operazione, però. È sempre una buona idea avere un backup del tuo file . htaccess nel caso in cui ti blocchi dall'accesso al tuo sito.

4. Proteggi le tue immagini (disabilita l'hotlinking e aggiungi filigrane)

Mentre il testo può essere preso dal tuo sito, anche le immagini possono essere mirate. Pertanto, puoi disabilitare l'hotlinking e aggiungere filigrane alle tue immagini per impedire lo scraping dei contenuti sul tuo sito WordPress.

L'hotlink si verifica quando un utente visualizza le tue immagini sul proprio sito Web, ma carica l'immagine dal tuo server. Pertanto, aumenta l'utilizzo della larghezza di banda poiché utilizza le risorse del server per visualizzare l'immagine.

Per disabilitare manualmente l'hotlinking, dovrai accedere al tuo file .htaccess tramite File Manager o FTP. Quindi, incolla il seguente codice nel file:

 /* Prevent image hotlinking in WordPress */ RewriteCond %HTTP_REFERER !^$ RewriteCond %HTTP_REFERER !^http(s)?://(www.)?yourwebsite.com [NC] RewriteCond %HTTP_REFERER !^http(s)?://(www.)?google.com [NC] RewriteCond %HTTP_REFERER !^http(s)?://(www.)?facebook.com [NC] RewriteCond %HTTP_REFERER !^http(s)?://(www.)?twitter.com [NC] RewriteCond %HTTP_REFERER !^http(s)?://(www.)?other-websites-go-here.com [NC] RewriteRule .(jpg|jpeg|png|gif)$ - [F]

Questo codice impedisce a qualsiasi sito Web (diverso da Google, Facebook, Twitter e il tuo sito) di utilizzare le tue immagini. Inoltre, puoi aggiungere o rimuovere i formati di file dall'ultima riga per determinare a quali immagini applicare la prevenzione degli hotlink.

Ora puoi anche filigranare le tue immagini WordPress per prevenire il furto di contenuti sul tuo sito. Nota che questo oscurerà leggermente le tue immagini poiché la filigrana interferirà con l'immagine:

iStock filigrana le immagini per impedire lo scraping dei contenuti.

Image Watermark è un plug-in WordPress gratuito che aggiunge automaticamente filigrane alle nuove immagini che carichi. Nel frattempo, ti consente di filigranare in massa le immagini esistenti sul tuo sito.

L'aggiunta di filigrane può creare un ostacolo per potenziali ladri. Gli scraper potrebbero pensarci due volte prima di utilizzare le tue foto sui loro siti Web, poiché sarebbe abbastanza chiaro che le immagini appartengono a qualcun altro.

5. Aggiungi molti link interni

La strategia finale per prevenire lo scraping dei contenuti su WordPress è aggiungere molti collegamenti interni ai tuoi post. Piuttosto che rendere i tuoi contenuti difficili da raschiare, questo garantisce che se il contenuto viene raschiato, trarrai comunque vantaggio dall'atto.

Ad esempio, tutti i link interni nei tuoi post ti faranno guadagnare preziosi backlink dal sito dello scraper. E poiché i backlink sono una parte fondamentale di qualsiasi strategia SEO di qualità, questo è un modo semplice per aumentare le classifiche di ricerca.

Inoltre, i collegamenti interni ti consentono di deviare il traffico dal sito dello scraper verso il tuo. Quindi, puoi assicurarti che questi visitatori rimangano sul tuo sito web pubblicando materiale di alta qualità, fornendo tempi di caricamento rapidi e implementando una facile navigazione del sito web.

Conclusione

Lo scraping dei contenuti non è solo frustrante, ma è anche illegale poiché coinvolge altri che rubano la tua proprietà intellettuale. Fortunatamente, ci sono alcune tecniche che possono dissuadere le persone dal copiare il tuo testo, le tue immagini e i tuoi video.

Per ricapitolare, ecco cinque strategie per prevenire lo scraping dei contenuti in WordPress:

  1. Visualizza un avviso di copyright.
  2. Apporta modifiche al tuo feed RSS.
  3. Blocca l'indirizzo IP dello scraper.
  4. Proteggi le tue immagini (disabilita l'hotlinking e aggiungi filigrane).
  5. Aggiungi molti link interni.

Hai domande sulle leggi sul copyright o sulle pratiche di scraping dei contenuti? Fatecelo sapere nella sezione commenti qui sotto!