Cele mai bune modalități de a opri motoarele de căutare să acceseze cu crawlere un site web WordPress

Publicat: 2023-01-27

Ce este indexarea motoarelor de căutare?

Indexarea motoarelor de căutare este procesul prin care motoarele de căutare, cum ar fi Google, Bing sau Yahoo, descoperă și adaugă pagini web în bazele lor de date. Aceste baze de date sunt apoi utilizate pentru a alimenta rezultatele căutării atunci când un utilizator introduce o interogare în motorul de căutare.

Când un motor de căutare accesează cu crawlere web, urmărește linkuri de la o pagină la alta și indexează conținutul fiecărei pagini pe care o întâlnește. Pe măsură ce indexează o pagină, procesează conținutul pentru a înțelege despre ce este pagina și cum ar trebui să fie clasată în rezultatele căutării. Acest proces este cunoscut sub numele de „ indexare ” sau „ crawling și indexare ”.

Când un motor de căutare indexează o pagină, se uită la diverși factori, cum ar fi textul de pe pagină, imaginile și videoclipurile de pe pagină, structura codului HTML și linkurile care indică către pagină. Folosește aceste informații pentru a determina relevanța și autoritatea paginii și modul în care ar trebui să fie clasată în rezultatele căutării.

Indexarea motoarelor de căutare este un proces continuu, deoarece motoarele de căutare își actualizează în mod constant bazele de date pentru a se asigura că au cele mai actualizate informații. Acest lucru este important deoarece web-ul se schimbă constant, paginile noi fiind create și paginile vechi fiind actualizate sau eliminate.

Un factor cheie pentru a vă îmbunătăți clasarea site-ului în rezultatele motoarelor de căutare este optimizarea paginilor pentru motoarele de căutare prin tehnici numite Search Engine Optimization (SEO). Prin optimizarea paginilor tale pentru motoarele de căutare, poți crește probabilitatea ca paginile tale să fie indexate și să se claseze mai sus în rezultatele căutării.

De ce să împiedice motoarele de căutare să acceseze cu crawlere un site web WordPress?

Pot exista mai multe motive pentru care cineva ar dori să oprească motoarele de căutare să acceseze cu crawlere un site WordPress. Iată câteva motive posibile:

  1. Dezvoltare și testare : dacă un site web este în curs de dezvoltare sau în curs de testare, este posibil să nu fie gata pentru consumul public. În acest caz, proprietarul site-ului poate dori să împiedice motoarele de căutare să acceseze cu crawlere site-ul până când acesta este gata să fie lansat.
  2. Confidențialitate și securitate : unele site-uri web pot conține informații sensibile care nu ar trebui să fie accesibile publicului. În acest caz, proprietarul site-ului poate dori să împiedice motoarele de căutare să acceseze cu crawlere site-ul pentru a proteja confidențialitatea și securitatea informațiilor.
  3. Gestionarea traficului : unele site-uri web pot avea o cantitate limitată de resurse disponibile, cum ar fi lățimea de bandă sau capacitatea serverului. În acest caz, proprietarul site-ului poate dori să împiedice motoarele de căutare să acceseze cu crawlere site-ul pentru a conserva resursele și a gestiona traficul.
  4. Conținut duplicat : dacă un site web rulează pe mai multe domenii, ar putea cauza probleme de conținut duplicat, care pot avea un impact negativ asupra optimizării motoarelor de căutare. În acest caz, proprietarul site-ului poate dori să împiedice motoarele de căutare să acceseze cu crawlere site-ul duplicat pentru a evita această problemă.
  5. Modul de întreținere : atunci când efectuează întreținerea unui site web, proprietarii de site-uri ar putea dori să împiedice motoarele de căutare să acceseze cu crawlere site-ul pentru a evita returnarea unei erori 404 vizitatorilor.
  6. Site de testare: dacă proprietarul unui site dorește să testeze noi modificări sau actualizări pe un site de pregătire înainte de a publica modificările pe site-ul live, ar putea dori să împiedice motoarele de căutare să acceseze cu crawlere site-ul de pregătire pentru a evita orice confuzie sau probleme cu căutarea site-ului său live. clasamentul motorului.

Este de remarcat faptul că, deși este posibil să împiedicați motoarele de căutare să acceseze cu crawlere un site WordPress, nu este recomandat să faceți acest lucru pentru o perioadă lungă de timp. Vizibilitatea motorului de căutare este importantă pentru a genera trafic către un site și menținerea acestuia la zi prin indexare este crucială pentru optimizarea motoarelor de căutare.

Modalități de a opri motoarele de căutare să acceseze cu crawlere un site web WordPress

Există mai multe metode care pot fi folosite pentru a opri motoarele de căutare să acceseze cu crawlere un site WordPress:

  1. Utilizarea unui plugin : Există mai multe plugin-uri WordPress, cum ar fi Yoast SEO sau All in One SEO Pack, care vă permit să adăugați o etichetă meta „noindex” în paginile dvs. Acest lucru le spune motoarele de căutare să nu indexeze pagina, împiedicându-le efectiv să acceseze cu crawlere site-ul.
  2. Utilizarea fișierului robots.txt : fișierul robots.txt este un fișier care se află la rădăcina unui site web și le spune motoarelor de căutare ce pagini sau secțiuni ale site-ului nu ar trebui să le acceseze cu crawlere. Puteți utiliza fișierul robots.txt pentru a bloca motoarele de căutare să acceseze cu crawlere întregul site sau doar anumite pagini sau secțiuni.
  3. Utilizarea fișierului .htaccess : Fișierul .htaccess este un fișier de configurare pentru serverul web Apache, care este utilizat de mulți furnizori de găzduire. Puteți utiliza fișierul .htaccess pentru a bloca motoarele de căutare să acceseze cu crawlere site-ul dvs. adăugând câteva rânduri de cod.
  4. Protecție prin parolă : protejarea cu parolă a site-ului dvs. folosind un plugin sau caracteristica încorporată a furnizorului dvs. de găzduire poate împiedica, de asemenea, motoarele de căutare să acceseze cu crawlere site-ul dvs., deoarece nu vor putea accesa paginile protejate.
  5. Mod de întreținere : WordPress are o caracteristică încorporată pentru modul de întreținere care poate fi activată prin fișierul wp-config.php. Aceasta va afișa vizitatorilor o pagină de întreținere și va împiedica motoarele de căutare să acceseze cu crawlere site-ul în timpul întreținerii.
  6. Site de punere în scenă: mulți furnizori de găzduire oferă o funcție de punere în scenă, care vă permite să creați o copie a site-ului dvs. live pentru testare și dezvoltare. Motoarele de căutare nu vor putea accesa cu crawlere site-ul intermediar, deoarece acesta este de obicei blocat pentru a fi indexat.

Să aruncăm o privire la toate metodele cu câteva detalii suplimentare.

#1. Folosind un plugin

Utilizarea unui plugin pentru a opri motoarele de căutare să acceseze cu crawlere un site WordPress este o metodă populară, deoarece este relativ ușor de configurat și nu necesită cunoștințe tehnice. Există mai multe plugin-uri WordPress disponibile care vă permit să adăugați o etichetă meta „noindex” în paginile dvs., cum ar fi Yoast SEO sau All in One SEO Pack.

To Stop Search Engines From Crawling use yoast plugin
Opțiunea „Fără index” în Yoast SEO

Când utilizați un plugin pentru a adăuga o metaetichetă „noindex”, acesta le spune motoarele de căutare să nu indexeze pagina, împiedicându-le efectiv să acceseze cu crawlere site-ul. Aceasta înseamnă că pagina nu va apărea în rezultatele motorului de căutare, iar motorul de căutare nu va cheltui resurse pentru accesarea cu crawlere a paginii.

Pentru a utiliza un plugin pentru a opri motoarele de căutare să acceseze cu crawlere un site WordPress, mai întâi va trebui să instalați și să activați pluginul. Odată ce pluginul este activat, de obicei veți putea accesa setările pluginului din tabloul de bord WordPress. De acolo, puteți selecta paginile sau postările pe care doriți să împiedicați motoarele de căutare să acceseze cu crawlere și să adăugați metaeticheta „noindex”.

To Stop Search Engines, no-index-in-all-in-one-seo

Este demn de remarcat faptul că unele plugin-uri vă vor permite să adăugați metaetichete „nofollow”, care le spun motoarelor de căutare să nu urmeze linkurile de pe pagină. Acest lucru poate fi util dacă doriți să împiedicați motoarele de căutare să acceseze cu crawlere site-ul dvs., dar doriți totuși să permiteți utilizatorilor să acceseze pagina.

În plus, unele plugin-uri vă pot permite, de asemenea, să blocați motoarele de căutare să acceseze cu crawlere anumite secțiuni ale site-ului dvs. sau întregul site, adăugând metaeticheta „noindex” la secțiunile sau paginile corespunzătoare.

Este important să rețineți că folosirea unui plugin pentru a opri motoarele de căutare să acceseze cu crawlere un site WordPress este o soluție temporară și nu trebuie utilizată pentru o perioadă lungă de timp, deoarece va afecta vizibilitatea și traficul site-ului. Dacă doriți să faceți modificări în site-ul dvs., puteți utiliza în schimb modul de întreținere sau site-ul de staging.

#2. Folosind fișierul robots.txt

Folosirea fișierului robots.txt pentru a opri motoarele de căutare să acceseze cu crawlere un site WordPress este o metodă care se bazează pe standardul pentru roboții web (cunoscuți și ca „crawler” sau „păianjeni”). Fișierul robots.txt este un fișier care se află la rădăcina unui site web și le spune motoarelor de căutare ce pagini sau secțiuni ale site-ului nu ar trebui să le acceseze cu crawlere. Prin crearea și încărcarea unui fișier robots.txt pe site-ul dvs. web, puteți împiedica motoarele de căutare să acceseze cu crawlere anumite pagini sau secțiuni ale site-ului dvs.

Pentru a crea un fișier robots.txt, puteți utiliza un editor de text simplu, cum ar fi Notepad sau TextEdit. Fișierul ar trebui să înceapă cu linia user-agent, care spune motoarelor de căutare ce crawler trebuie blocat. De exemplu, pentru a bloca toate motoarele de căutare, ați folosi „User-agent: *”.

Apoi, puteți specifica ce pagini sau secțiuni ale site-ului dvs. doriți să blocați. Acest lucru se face prin utilizarea directivei „Disallow”, urmată de adresa URL a paginii sau a secțiunii pe care doriți să o blocați. De exemplu, pentru a bloca o anumită pagină, ați folosi „Disallow: /page-to-block/”. Pentru a bloca un întreg director, ați folosi „Disallow: /directory-to-block/”.

După ce ați creat fișierul robots.txt, trebuie să îl încărcați în directorul rădăcină al site-ului dvs. web. Locația directorului rădăcină va depinde de furnizorul dvs. de găzduire, dar este de obicei același director ca pagina dvs. de pornire.

Merită remarcat faptul că, deși un fișier robots.txt poate împiedica motoarele de căutare să acceseze cu crawlere site-ul dvs., nu este o metodă sigură, deoarece unii crawler-uri ar putea ignora fișierul. În plus, este important să rețineți că fișierul robots.txt nu va împiedica motoarele de căutare să cunoască existența site-ului.

De asemenea, rețineți că, dacă vă blocați întregul site folosind robots.txt, acesta va împiedica site-ul dvs. să fie indexat și să apară în rezultatele motoarelor de căutare și astfel site-ul dvs. nu va primi trafic de la motoarele de căutare.

De asemenea, merită remarcat faptul că puteți verifica fișierul robots.txt al oricărui site web vizitând adresa URL „ https://www.example.com/robots.txt ” și înlocuiți „example.com” cu numele de domeniu al oricărui site web.

#3. Folosind fișierul .htaccess

Folosirea fișierului .htaccess pentru a opri motoarele de căutare să acceseze cu crawlere un site WordPress este o metodă care implică editarea fișierului .htaccess pe serverul dvs. pentru a adăuga reguli specifice care vor împiedica motoarele de căutare să acceseze cu crawlere anumite pagini sau secțiuni ale site-ului dvs. Fișierul .htaccess este un fișier de configurare care se află în directorul rădăcină al site-ului dvs. și controlează diferite aspecte ale comportamentului site-ului dvs., inclusiv redirecționările, securitatea și controalele de acces.

Iată un exemplu despre cum puteți utiliza fișierul .htaccess pentru a bloca motoarele de căutare să acceseze cu crawlere o anumită pagină de pe site-ul dvs. WordPress:

  1. Accesați directorul rădăcină al site-ului dvs. prin FTP sau managerul de fișiere din panoul de control al găzduirii web.
  2. Căutați fișierul .htaccess, dacă nu există, puteți crea un fișier nou cu același nume.
  3. Deschideți fișierul .htaccess într-un editor de text, cum ar fi Notepad sau TextEdit.
  4. Adăugați următorul cod la sfârșitul fișierului:
 <IfModule mod_rewrite.c> RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|yahoo) [NC] RewriteRule ^page-to-block/$ - [R=404,L] </IfModule>

Acest cod va bloca toate motoarele de căutare majore să acceseze cu crawlere pagina cu adresa URL „de la pagină la bloc”. Puteți schimba adresa URL pentru a se potrivi cu pagina pe care doriți să o blocați.

  1. Salvați fișierul .htaccess și încărcați-l înapoi pe server.

Este de remarcat faptul că această metodă va împiedica motoarele de căutare să acceseze cu crawlere paginile specificate, dar nu va împiedica motoarele de căutare să cunoască existența paginilor. În plus, această metodă se bazează pe presupunerea că crawlerele motoarelor de căutare vor respecta regulile specificate în fișierul .htaccess, ceea ce s-ar putea să nu fie întotdeauna cazul.

De asemenea, este important să fiți atenți când editați fișierul .htaccess, deoarece o greșeală în cod poate face ca site-ul dvs. să devină inaccesibil. Este recomandat să păstrați o copie de rezervă a fișierului original .htaccess înainte de a face orice modificări.

#4. Protecție cu parolă

Folosirea protecției cu parolă pentru a opri motoarele de căutare să acceseze cu crawlere un site WordPress este o metodă care implică adăugarea unei parole la anumite pagini sau secțiuni ale site-ului tău. Aceasta înseamnă că numai utilizatorii care au parola vor putea accesa paginile protejate, în timp ce motoarele de căutare nu vor putea să le acceseze cu crawlere.

Există mai multe moduri de a proteja cu parolă paginile sau secțiunile unui site WordPress:

  1. Utilizarea unui plugin : Există mai multe plugin-uri WordPress disponibile care vă permit să protejați cu parolă paginile sau secțiunile site-ului dvs., cum ar fi Categoriile protejate cu parolă sau protejate cu parolă. Aceste plugin-uri vă permit să setați o parolă pentru o anumită pagină sau postare sau pentru o întreagă categorie.
  2. Utilizarea fișierului .htaccess : Puteți utiliza un fișier .htaccess pentru a proteja cu parolă un anumit director de pe site-ul dvs. web. Această metodă este puțin mai tehnică, deoarece necesită editarea fișierului .htaccess de pe serverul dvs., dar poate fi utilă dacă doriți să protejați cu parolă un întreg director, mai degrabă decât o singură pagină sau postare.
  3. Utilizarea cPanel : Unii furnizori de găzduire web oferă și o modalitate de a proteja cu parolă un director în cPanel. Această metodă poate fi utilă dacă doriți să protejați cu parolă un întreg director și nu sunteți familiarizat cu editarea fișierelor .htaccess.

După ce ați protejat cu parolă o pagină sau o secțiune a site-ului dvs., motoarele de căutare nu vor putea să o acceseze cu crawlere. Cu toate acestea, este de remarcat faptul că această metodă nu va împiedica motoarele de căutare să cunoască existența paginii. În plus, este important să rețineți că protejarea cu parolă a unei pagini sau a unei secțiuni a site-ului dvs. va împiedica utilizatorii să o acceseze, așa că ar trebui să fie utilizată numai pentru pagini sau secțiuni care nu sunt importante pentru vizibilitatea sau traficul site-ului dvs.

De asemenea, utilizarea protecției cu parolă nu este o soluție pe termen lung, ar trebui să utilizați această metodă numai dacă aveți o nevoie temporară de a bloca accesul la site-ul dvs. sau la o anumită parte a acestuia, cum ar fi în timpul întreținerii sau testării.

#5. Modul de întreținere

WordPress are o funcție încorporată în modul de întreținere care vă permite să vă luați temporar site-ul offline în timp ce efectuați actualizări, întreținere sau faceți modificări. Această caracteristică este utilizată de obicei pentru a afișa o pagină „În curând” sau „Mod de întreținere” vizitatorilor, permițându-vă totodată și altor utilizatori conectați să accesați site-ul.

Pentru a activa modul de întreținere încorporat în WordPress, puteți urma acești pași:

  1. Accesați tabloul de bord WordPress și navigați la meniul „Setări”.
  2. Selectați opțiunea „Mod de întreținere”.
  3. Bifați caseta de selectare „Activați modul de întreținere”.
  4. Faceți clic pe butonul „Salvați modificările”.

Odată ce ați activat modul de întreținere, vizitatorii vor vedea o pagină „În curând” sau „Modul de întreținere”, în timp ce dumneavoastră și alți utilizatori conectați veți avea acces deplin la site. Acest lucru va bloca, de asemenea, motoarele de căutare să acceseze cu crawlere site-ul în timp ce acesta este în modul de întreținere.

De asemenea, puteți instala un plugin cum ar fi „Coming Soon Page & Maintenance Mode by SeedProd”, care vă permite să personalizați pagina viitoare și, de asemenea, vă permite să blocați motoarele de căutare să acceseze cu crawlere site-ul în timp ce acesta este în modul de întreținere.

#6 .Sit de punere în scenă

Un site de pregătire este o copie sau o copie a site-ului dvs. live care este utilizat în scopuri de testare și dezvoltare. Vă permite să faceți modificări și să testați noi funcții pe site-ul dvs. fără a afecta versiunea live. Acest lucru poate fi foarte util atunci când doriți să vă actualizați site-ul sau să faceți modificări majore, dar nu doriți ca vizitatorii sau motoarele de căutare să vadă site-ul în timp ce acesta este în desfășurare.

Mulți furnizori de găzduire oferă o funcție de pregătire care vă permite să creați o copie a site-ului dvs. live cu câteva clicuri. Aceasta implică de obicei crearea unui subdomeniu separat sau a unui subdirector pe domeniul dvs. principal, unde puteți accesa site-ul de intermediar. Procesul de creare a unui site de staging poate varia în funcție de furnizorul de găzduire, dar de obicei implică câțiva pași simpli precum:

  1. Conectați-vă la contul dvs. de găzduire.
  2. Accesați panoul de control al găzduirii sau cPanel
  3. Căutați secțiunea „Înscenare” sau „Dezvoltare”.
  4. Selectați site-ul dvs. din lista de site-uri din contul dvs. de găzduire.
  5. Faceți clic pe butonul „Creare Staging Site”.

Odată ce site-ul de staging este creat, îl veți putea accesa folosind o adresă URL diferită de site-ul live, cum ar fi „staging.yourdomain.com”. Puteți apoi să faceți modificări și să testați noi funcții pe site-ul de pregătire fără a afecta versiunea live.

Este important să rețineți că motoarele de căutare nu vor putea accesa cu crawlere site-ul intermediar, deoarece acesta este de obicei blocat de la indexare. Aceasta înseamnă că site-ul de staging nu va fi vizibil pentru motoarele de căutare și nu va afecta SEO site-ului live. De asemenea, puteți bloca motoarele de căutare să acceseze cu crawlere site-ul folosind fișierul robots.txt sau utilizând un plugin pentru a gestiona accesul la site-ul dvs., cum ar fi „Coming Soon Page & Maintenance Mode by SeedProd” sau „WordPress SEO by Yoast”, astfel încât motoarele de căutare nu pot accesa site-ul în timp ce acesta este în dezvoltare.

După ce ați terminat de făcut modificări și de testat pe site-ul de pregătire, puteți apoi să împingeți modificările pe site-ul live. Acest lucru se poate face folosind același plugin pe care l-ați folosit pentru a crea site-ul de pregătire sau prin încărcarea manuală a modificărilor pe site-ul live.

Un site de staging este o replică a unui site live, folosit pentru a testa și dezvolta modificări într-un mediu securizat, poate fi folosit pentru a bloca motoarele de căutare să acceseze cu crawlere site-ul și vă permite să testați modificările înainte de a le face live. Și mulți furnizori de găzduire oferă această caracteristică ca un serviciu încorporat.

Încheierea

În concluzie, există mai multe metode care pot fi folosite pentru a opri motoarele de căutare să acceseze cu crawlere un site WordPress, fiecare cu propriile avantaje și limitări. Aceste metode includ utilizarea modului de întreținere încorporat, fișierul robots.txt, plugin-uri și crearea unui site de pregătire. Fiecare dintre aceste metode poate fi folosită pentru a atinge diferite obiective, cum ar fi protejarea confidențialității și securității informațiilor sensibile, gestionarea traficului și resurselor, evitarea problemelor de conținut duplicat și testarea noilor modificări sau actualizări înainte de a le publica pe site-ul live. Este esențial să alegeți metoda potrivită care se potrivește cel mai bine nevoilor dvs. și să vă asigurați că site-ul dvs. este configurat corespunzător pentru a împiedica motoarele de căutare să îl acceseze cu crawlere.