Come bypassare un Paywall (articoli, blog, ecc.)
Pubblicato: 2022-02-09- Che cos'è un Paywall?
- In che modo i motori di ricerca accedono ai contenuti con paywall?
- La posizione di Google sui contenuti con paywall
- Bloccato nell'UE a causa del GDPR
- Come aggirare i paywall
- Scala di 12 piedi
- Bypassare i paywall
- Archivio
- Modalità incognito
- Incoggo
- È etico aggirare i paywall?
Una delle cose più fastidiose del web "moderno" sono i paywall. Sempre più editori scelgono di bloccare i propri contenuti dietro abbonamenti premium o moduli di iscrizione via e-mail. E in questo articolo, spiegherò perché esistono i paywall e come aggirarli.
Voglio chiarire assolutamente che non perdono l'atto di evitare di pagare per contenuti premium. Gli editori dovrebbero essere premiati per il loro lavoro e lo rispetto. Ma non sono solo i grandi editori come il New York Times a causare problemi.
Molti blog su Medium stanno adottando tattiche losche al limite per costringere le persone a condividere i propri indirizzi e-mail. E farò del mio meglio per spiegare come. Un altro problema è quando i siti bloccano l'accesso dall'intera regione dell'UE a causa delle normative GDPR. Ne parleremo presto.
Se vuoi saltare la parte tecnica, clicca qui per passare direttamente alla sezione strumenti.
Che cos'è un Paywall?
Nei termini più elementari, un paywall viene utilizzato per proteggere il contenuto del sito Web destinato a essere pagato. Il costo può essere monetario – abbonamento – o un indirizzo e-mail per aiutare a far crescere una newsletter.
Il ragionamento alla base dell'utilizzo di un paywall è abbastanza semplice: gli ad-blocker stanno ostacolando i flussi di entrate degli editori. E questo accade ormai da più di un decennio.
Google ha riferito nel 2017 che "[...] più di 600 milioni di dispositivi utilizzano ad-blocker" . È giusto presumere che questo numero sia cresciuto esponenzialmente da allora.

Se sei un grande editore e dipendi dalle entrate pubblicitarie, ha senso passare a un modello di abbonamento. Tuttavia, il mio punto di vista su questo argomento è legato ai motori di ricerca.
In particolare, il modo in cui gli editori consentono ai motori di ricerca come Google di eseguire la scansione e l'indicizzazione dei loro contenuti, ma non consentono a chi effettua la ricerca di leggerli.
In che modo i motori di ricerca accedono ai contenuti con paywall?
Quindi, lascia che ti illustri cosa è successo e perché ho scritto questo articolo in primo luogo. Durante la ricerca per il mio articolo di analisi open source, volevo conoscere l'impatto che i blocchi degli annunci hanno sui report di analisi.
In particolare, come gli ad-blocker influiscono sui rapporti di strumenti come Google Analytics.
La mia query di ricerca per questo era: "tracciamento dell'analisi dei blocchi degli annunci" .
Ed ecco il risultato della ricerca di Google:

Il primo risultato proviene da Towards Data Science ed è uno snippet in primo piano. Questi frammenti sono il modo in cui Google ti fornisce una risposta rapida a una domanda specifica. E sono attaccati alla parte superiore della pagina dei risultati di ricerca per implicare autorità.
Tuttavia, la risposta è abbastanza semplice, ma volevo saperne di più. Quindi, ho cliccato sul link dell'articolo. E questa è la pagina con cui sono stato accolto:

Il mio primo pensiero? Questo è fastidioso da morire. Il mio secondo pensiero? In che modo Google ha visto questo articolo e lo ha promosso nei risultati di ricerca?
Certo, non sto cercando di essere ignorante. So che Medium limita il numero di articoli che puoi leggere in un mese. Tuttavia, tenere traccia di quanti ne hai letti non è fattibile. Soprattutto, considerando che puoi utilizzare nomi di dominio personalizzati per i tuoi blog medi.
In questo caso, Towards Data Science pubblica i suoi contenuti su Medium. E Medium offre ai creatori un modo per guadagnare soldi per la pubblicazione con la loro piattaforma. È una relazione d'affari più che una questione personale di fiducia. Ma ecco la mia lamentela.
Affinché questo contenuto possa prosperare, dipende fortemente dal traffico dei motori di ricerca.
Pertanto, il crawler di Google riceve un pass gratuito sia per vedere l'intero contenuto della pagina, sia per indicizzarlo nei risultati di ricerca. E come abbiamo visto sopra, quei risultati di ricerca possono essere promossi allo stato autorevole. Il che, onestamente, non ha alcun senso.
La posizione di Google sui contenuti con paywall

Google ha creato una linea guida ufficiale su come strutturare i contenuti con paywall utilizzando il markup dello schema. Puoi vedere i documenti ufficiali qui.
In sintesi:
- Google non consente il cloaking dei contenuti.
- Il contenuto con paywall deve essere contrassegnato fino alla sezione esatta nascosta dietro un paywall.
Non si sa quanto attivamente Google applichi queste regole.
Ho fatto la mia due diligence su Towards Data Science, ed ecco il codice che stanno usando in quella pagina specifica:
mainEntityOfPage: https://towardsdatascience.com/how-much-data-is-missing-from-your-google-analytics-dashboard-20506b26e6d isAccessibleForFree: False cssSelector: .meteredContent
Come possiamo vedere qui, isAccessibleForFree è su False e il selettore CSS è impostato su .meteredContent. Ci dice che Medium sta seguendo le linee guida di Google su come strutturare i contenuti con paywall.

Che cos'è il selettore ".meteredContent"?
Questo selettore viene utilizzato per indicare ai motori di ricerca come Google che esiste un limite al numero di articoli gratuiti che un utente può leggere. Nel caso di Medium, sono 3 articoli gratuiti al mese .

Certo, mentre ero alla ricerca di una vera trasgressione da parte di Medium, sono tornato a mani vuote. Penso che, logicamente, non abbia senso che Google possa vedere tutti gli articoli, ma i veri lettori possono leggere solo 3 articoli prima di essere costretti a registrarsi. Google sembra essere più che felice di consentire questo tipo di comportamento e non c'è molto altro che posso dire.
Google ha dichiarato apertamente di essere più interessato alla qualità dei contenuti piuttosto che preoccuparsi della sua accessibilità. La società inizialmente ha pubblicato linee guida su come dire agli editori di consentire almeno 3 articoli gratuiti per i visitatori per la prima volta. Questo è vero per quello che abbiamo visto con Medium. Ma, negli ultimi anni, Google è passato al markup strutturato. Maggiori informazioni a riguardo nell'articolo "Come funzionano gli algoritmi di ricerca" di Google stesso.
Bloccato nell'UE a causa del GDPR
In alcuni casi, potresti imbatterti in siti Web che bloccano completamente l'accesso . Questo è in gran parte rilevante per gli editori con sede negli Stati Uniti che bloccano l'accesso ai lettori dell'UE. E la semplice ragione di ciò è il GDPR, le normative sulla privacy dall'Europa.

Mentre l'immagine sopra implica che il sito Web in questione "si preoccupa" dei visitatori dell'UE, chiaramente non è il caso in termini pratici. Il motivo per cui gli editori lo fanno è a causa di complicate tecniche pubblicitarie che raccolgono dati sugli utenti. E, invece di limitare quali dati vengono tracciati per una regione specifica, alcuni scelgono di bloccare completamente l'accesso.
Come aggirare i paywall
Va bene, diamo un'occhiata oltre il dramma e il ragionamento dietro i paywall. Invece, esploriamo alcuni degli strumenti che puoi utilizzare per aggirare rapidamente un paywall.
Scala di 12 piedi

Il modo più rapido per superare un paywall è utilizzare il sito Web 12ft Ladder. Tutto quello che devi fare è inserire l'URL che si collega a un paywall e 12ft farà il resto.
https://12ft.io/[link to the paywalled website]
Per quanto riguarda come funziona, è abbastanza semplice. Siti di notizie, editori e altri fornitori di contenuti utilizzano i paywall ma consentono a Google Crawler di vedere le loro pagine. In questo contesto, 12ft utilizza semplicemente la funzione Google Cache per mostrarti l'intera pagina.
Per quanto ne so, 12 piedi non supporta il bypass del New York Times.
Bypassare i paywall

L'estensione del browser Bypass Paywalls è un progetto open source ospitato su GitHub. Per utilizzare questa specifica estensione, devi installarla tu stesso. Poiché non è disponibile per il download né sul marketplace di Google Chrome né su Mozilla.
L'estensione stessa è disponibile per i browser Chrome, Firefox ed Edge. Ultimo ma non meno importante, il progetto ha oltre 20.000 stelle su GitHub. Quindi, è sia testato nel tempo che anche affidabile. L'elenco completo dei siti che puoi ignorare con questa estensione si trova nella pagina del progetto stessa.
Archivio

Il progetto Archive Today funziona in modo simile a molti altri strumenti di bypass del paywall. Archivia le pagine come se la pagina fosse stata sfogliata da un motore di ricerca e ti restituisce una versione leggibile della pagina che stai cercando di visualizzare.
Questo metodo viene spesso utilizzato su siti come Hacker News in cui le persone inviano storie dietro contenuti protetti da paywall. Da quello che posso dire, funziona bene con siti come NY Times, Financial Times, The Wall Street Journal e numerosi altri.
Modalità incognito

In alcuni casi, un sito Web memorizzerà i dati dei cookie per monitorare quanti articoli gratuiti hai letto. Una volta raggiunto il limite, verrai bloccato. E uno dei modi più semplici per aggirarlo è attraverso la modalità di navigazione in incognito. Conosciuto anche come modalità privata.
Puoi accedere alla navigazione in incognito su qualsiasi browser moderno andando su Impostazioni e selezionando una nuova finestra privata . Questo ti darà semplicemente una "lavagna vuota" senza cronologia dei cookie, il che significa che puoi andare avanti e accedere ai contenuti nascosti dietro un paywall dei cookie.
Incoggo

Le persone dietro Incoggo stanno pianificando di entrare nel mercato degli ad-blocker. Ma, per il momento, forniscono software gratuito basato su Mac per saltare i paywall. Ancora una volta, questo software è disponibile solo per gli utenti di OSX, anche se una versione di Windows dovrebbe emergere presto.
Guardando le ultime notizie del loro blog, sembra che il progetto sia in fase di sviluppo attivo. Questa è una buona notizia perché significa che il software funziona quando necessario. Per quanto riguarda le pubblicazioni e i siti che Incoggo può saltare, controlla il loro sito Web ufficiale.
È etico aggirare i paywall?
Penso che tutti operiamo a vari livelli di bussola morale. Ci sono molti argomenti da avere da entrambe le parti. E, come ho detto all'inizio dell'articolo, penso che gli editori dovrebbero essere in grado di addebitare costi di abbonamento per i contenuti premium.
Il mio unico problema è quando questo processo diventa estorsione. In altre parole, perché dare privilegi ai motori di ricerca come Google e poi bloccare tutti gli altri utenti?
Non è raro leggere un vero articolo gratuito, che si collega a editori che hanno aggiunto paywall ai loro contenuti.
Vale davvero la pena pagare $ 50 all'anno per leggere un solo articolo? Lo stesso vale per gli articoli che una volta erano gratuiti, ma sono ancora collegati nonostante il paywall.
In ogni caso, spero che questa guida ti abbia fornito almeno alcuni spunti utili.