WordPress 웹 사이트 크롤링에서 검색 엔진을 중지하는 가장 좋은 방법

게시 됨: 2023-01-27

검색 엔진 인덱싱이란 무엇입니까?

검색 엔진 인덱싱은 Google, Bing 또는 Yahoo와 같은 검색 엔진이 웹 페이지를 발견하고 데이터베이스에 추가하는 프로세스입니다. 이러한 데이터베이스는 사용자가 검색 엔진에 쿼리를 입력할 때 검색 결과를 강화하는 데 사용됩니다.

검색 엔진이 웹을 크롤링할 때 한 페이지에서 다른 페이지로의 링크를 따라가며 마주치는 각 페이지의 콘텐츠를 인덱싱합니다. 페이지를 인덱싱할 때 콘텐츠를 처리하여 페이지의 내용과 검색 결과에서 순위를 매기는 방법을 이해합니다. 이 프로세스를 " 인덱싱 " 또는 " 크롤링 및 인덱싱 "이라고 합니다.

검색 엔진이 페이지를 인덱싱할 때 페이지의 텍스트, 페이지의 이미지 및 비디오, HTML 코드의 구조 및 페이지를 가리키는 링크와 같은 다양한 요소를 살펴봅니다. 이 정보를 사용하여 페이지의 관련성과 권한을 결정하고 검색 결과에서 순위를 매기는 방법을 결정합니다.

검색 엔진 인덱싱은 검색 엔진이 최신 정보를 갖도록 데이터베이스를 지속적으로 업데이트하므로 지속적인 프로세스입니다. 새 페이지가 생성되고 이전 페이지가 업데이트되거나 제거되는 등 웹이 지속적으로 변화하기 때문에 이는 중요합니다.

검색 엔진 결과에서 웹 사이트 순위를 높이는 한 가지 핵심 요소는 검색 엔진 최적화(SEO)라는 기술을 통해 검색 엔진에 맞게 페이지를 최적화하는 것입니다. 검색 엔진에 맞게 페이지를 최적화하면 페이지의 색인이 생성되고 검색 결과에서 순위가 ​​높아질 가능성이 높아집니다.

검색 엔진이 WordPress 웹 사이트를 크롤링하지 못하도록 하는 이유는 무엇입니까?

누군가가 검색 엔진이 WordPress 사이트를 크롤링하는 것을 막으려는 몇 가지 이유가 있을 수 있습니다. 가능한 이유는 다음과 같습니다.

  1. 개발 및 테스트 : 웹 사이트가 개발 중이거나 테스트 중인 경우 대중이 사용할 준비가 되지 않았을 수 있습니다. 이 경우 사이트 소유자는 시작할 준비가 될 때까지 검색 엔진이 사이트를 크롤링하지 못하도록 할 수 있습니다.
  2. 개인정보 보호 및 보안 : 일부 웹사이트에는 공개적으로 액세스할 수 없는 민감한 정보가 포함될 수 있습니다. 이 경우 사이트 소유자는 정보의 개인 정보 및 보안을 보호하기 위해 검색 엔진이 사이트를 크롤링하지 못하도록 할 수 있습니다.
  3. 트래픽 관리 : 일부 웹사이트는 대역폭이나 서버 용량과 같이 사용 가능한 리소스가 제한되어 있을 수 있습니다. 이 경우 사이트 소유자는 리소스를 절약하고 트래픽을 관리하기 위해 검색 엔진이 사이트를 크롤링하지 못하도록 할 수 있습니다.
  4. 중복 콘텐츠 : 웹사이트가 여러 도메인에서 실행되는 경우 중복 콘텐츠 문제가 발생하여 검색 엔진 최적화에 부정적인 영향을 미칠 수 있습니다. 이 경우 사이트 소유자는 이 문제를 피하기 위해 검색 엔진이 중복 사이트를 크롤링하지 못하도록 할 수 있습니다.
  5. 유지 관리 모드 : 사이트 소유자는 웹 사이트에서 유지 관리를 수행할 때 방문자에게 404 오류가 반환되지 않도록 검색 엔진이 사이트를 크롤링하지 못하도록 할 수 있습니다.
  6. 스테이징 사이트 : 사이트 소유자가 라이브 사이트에 변경 사항을 게시하기 전에 스테이징 사이트에서 새로운 변경 사항이나 업데이트를 테스트하려는 경우 라이브 사이트 검색과 관련된 혼란이나 문제를 피하기 위해 검색 엔진이 스테이징 사이트를 크롤링하지 못하도록 할 수 있습니다. 엔진 순위.

검색 엔진이 WordPress 사이트를 크롤링하는 것을 방지할 수는 있지만 장기간 그렇게 하는 것은 권장하지 않습니다. 검색 엔진 가시성은 사이트로 트래픽을 유도하는 데 중요하며 인덱싱을 통해 최신 상태로 유지하는 것은 검색 엔진 최적화에 중요합니다.

WordPress 웹 사이트를 크롤링하는 검색 엔진을 중지하는 방법

검색 엔진이 WordPress 사이트를 크롤링하는 것을 중지하는 데 사용할 수 있는 몇 가지 방법이 있습니다.

  1. 플러그인 사용 : 페이지에 "NOINDEX" 메타 태그를 추가할 수 있는 Yoast SEO 또는 All in One SEO Pack과 같은 여러 WordPress 플러그인이 있습니다. 이렇게 하면 검색 엔진에 페이지를 인덱싱하지 않도록 지시하여 효과적으로 사이트를 크롤링하지 못하게 합니다.
  2. robots.txt 파일 사용 : robots.txt 파일은 웹사이트의 루트에 있는 파일로, 크롤링하면 안 되는 사이트의 페이지나 섹션을 검색 엔진에 알려줍니다. robots.txt 파일을 사용하여 검색 엔진이 전체 사이트 또는 특정 페이지나 섹션을 크롤링하지 못하도록 차단할 수 있습니다.
  3. .htaccess 파일 사용 : .htaccess 파일은 많은 호스팅 제공업체에서 사용하는 Apache 웹 서버용 구성 파일입니다. .htaccess 파일을 사용하여 몇 줄의 코드를 추가하여 검색 엔진이 사이트를 크롤링하지 못하도록 차단할 수 있습니다.
  4. 비밀번호 보호 : 플러그인이나 호스팅 제공업체의 내장 기능을 사용하여 사이트를 비밀번호로 보호하면 검색 엔진이 보호된 페이지에 액세스할 수 없기 때문에 사이트를 크롤링하지 못할 수도 있습니다.
  5. 유지 관리 모드 : WordPress에는 wp-config.php 파일을 통해 활성화할 수 있는 유지 관리 모드 기능이 내장되어 있습니다. 이렇게 하면 방문자에게 유지 관리 페이지가 표시되고 유지 관리 중에 검색 엔진이 사이트를 크롤링하는 것을 방지할 수 있습니다.
  6. 스테이징 사이트 : 많은 호스팅 제공업체는 스테이징 기능을 제공하여 테스트 및 개발을 위해 라이브 사이트의 복사본을 만들 수 있습니다. 스테이징 사이트는 일반적으로 인덱싱이 차단되므로 검색 엔진은 스테이징 사이트를 크롤링할 수 없습니다.

자세한 내용과 함께 모든 방법을 살펴보겠습니다.

#1. 플러그인 사용

플러그인을 사용하여 검색 엔진이 WordPress 사이트를 크롤링하는 것을 중지하는 것은 설정이 비교적 쉽고 기술적 지식이 필요하지 않기 때문에 널리 사용되는 방법입니다. Yoast SEO 또는 All in One SEO Pack과 같이 페이지에 "noindex" 메타 태그를 추가할 수 있는 몇 가지 WordPress 플러그인이 있습니다.

To Stop Search Engines From Crawling use yoast plugin
Yoast SEO의 "인덱스 없음" 옵션

플러그인을 사용하여 "NOINDEX" 메타 태그를 추가하면 검색 엔진에 페이지를 인덱싱하지 않도록 지시하여 사이트 크롤링을 효과적으로 방지합니다. 이는 페이지가 검색 엔진 결과에 표시되지 않으며 검색 엔진이 페이지 크롤링에 리소스를 소비하지 않음을 의미합니다.

플러그인을 사용하여 검색 엔진이 WordPress 사이트를 크롤링하는 것을 중지하려면 먼저 플러그인을 설치하고 활성화해야 합니다. 플러그인이 활성화되면 일반적으로 WordPress 대시보드에서 플러그인 설정에 액세스할 수 있습니다. 여기에서 검색 엔진이 크롤링하지 못하도록 하려는 페이지나 게시물을 선택하고 "NOINDEX" 메타 태그를 추가할 수 있습니다.

To Stop Search Engines, no-index-in-all-in-one-seo

일부 플러그인은 검색 엔진이 페이지의 링크를 따르지 않도록 지시하는 "nofollow" 메타 태그를 추가할 수도 있다는 점은 주목할 가치가 있습니다. 이는 검색 엔진이 사이트를 크롤링하지 못하게 하려는 경우에 유용할 수 있지만 여전히 사용자가 페이지에 액세스할 수 있도록 하려는 경우에 유용합니다.

또한 일부 플러그인을 사용하면 적절한 섹션이나 페이지에 "NOINDEX" 메타 태그를 추가하여 검색 엔진이 사이트의 특정 섹션 또는 전체 사이트를 크롤링하지 못하도록 차단할 수도 있습니다.

플러그인을 사용하여 검색 엔진이 WordPress 사이트를 크롤링하지 못하게 하는 것은 일시적인 해결책이며 웹사이트의 가시성과 트래픽에 영향을 미치므로 장기간 사용해서는 안 된다는 점을 기억하는 것이 중요합니다. 웹 사이트를 변경하려는 경우 유지 관리 모드 또는 스테이징 사이트를 대신 사용할 수 있습니다.

#2. robots.txt 파일 사용

robots.txt 파일을 사용하여 검색 엔진이 WordPress 사이트를 크롤링하지 못하게 하는 것은 웹 로봇("크롤러" 또는 "스파이더"라고도 함) 표준을 기반으로 하는 방법입니다. robots.txt 파일은 웹사이트의 루트에 위치하며 크롤링해서는 안 되는 사이트의 페이지 또는 섹션을 검색 엔진에 알려주는 파일입니다. robots.txt 파일을 만들어 웹사이트에 업로드하면 검색 엔진이 사이트의 특정 페이지나 섹션을 크롤링하는 것을 방지할 수 있습니다.

robots.txt 파일을 만들려면 메모장이나 TextEdit와 같은 간단한 텍스트 편집기를 사용할 수 있습니다. 파일은 차단해야 하는 크롤러를 검색 엔진에 알려주는 user-agent 줄로 시작해야 합니다. 예를 들어 모든 검색 엔진을 차단하려면 "User-agent: *"를 사용합니다.

다음으로 사이트에서 차단할 페이지 또는 섹션을 지정할 수 있습니다. 이것은 "허용 안 함" 지시어와 차단하려는 페이지 또는 섹션의 URL을 사용하여 수행됩니다. 예를 들어 특정 페이지를 차단하려면 “Disallow: /page-to-block/”을 사용합니다. 전체 디렉토리를 차단하려면 "Disallow: /directory-to-block/"을 사용합니다.

robots.txt 파일을 생성했으면 웹사이트의 루트 디렉토리에 업로드해야 합니다. 루트 디렉토리의 위치는 호스팅 제공업체에 따라 다르지만 일반적으로 홈페이지와 동일한 디렉토리입니다.

robots.txt 파일은 검색 엔진이 사이트를 크롤링하는 것을 방지할 수 있지만 일부 크롤러가 파일을 무시할 수 있으므로 완벽한 방법은 아닙니다. 또한 robots.txt 파일은 검색 엔진이 사이트의 존재를 인식하는 것을 방해하지 않는다는 점을 기억하는 것이 중요합니다.

또한 robots.txt를 사용하여 사이트 전체를 차단하는 경우 사이트가 색인 생성되지 않고 검색 엔진 결과에 표시되지 않으므로 웹사이트가 검색 엔진으로부터 트래픽을 받지 않는다는 점을 명심하세요.

URL " https://www.example.com/robots.txt "를 방문하여 웹사이트의 robots.txt 파일을 확인하고 "example.com"을 웹사이트의 도메인 이름으로 바꿀 수 있다는 점도 주목할 가치가 있습니다.

#삼. .htaccess 파일 사용

.htaccess 파일을 사용하여 검색 엔진이 WordPress 사이트를 크롤링하지 못하도록 하는 방법은 서버에서 .htaccess 파일을 편집하여 검색 엔진이 사이트의 특정 페이지 또는 섹션을 크롤링하지 못하도록 차단하는 특정 규칙을 추가하는 방법입니다. .htaccess 파일은 웹사이트의 루트 디렉토리에 있는 구성 파일이며 리디렉션, 보안 및 액세스 제어를 포함하여 웹사이트 동작의 다양한 측면을 제어합니다.

다음은 .htaccess 파일을 사용하여 검색 엔진이 WordPress 사이트의 특정 페이지를 크롤링하지 못하도록 차단하는 방법의 예입니다.

  1. FTP 또는 웹 호스팅 제어판의 파일 관리자를 통해 웹사이트의 루트 디렉토리에 액세스하십시오.
  2. .htaccess 파일이 없으면 같은 이름으로 새 파일을 만들 수 있습니다.
  3. 메모장이나 TextEdit와 같은 텍스트 편집기에서 .htaccess 파일을 엽니다.
  4. 파일 끝에 다음 코드를 추가합니다.
 <IfModule mod_rewrite.c> RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|yahoo) [NC] RewriteRule ^page-to-block/$ - [R=404,L] </IfModule>

이 코드는 모든 주요 검색 엔진이 "page-to-block" URL이 있는 페이지를 크롤링하지 못하도록 차단합니다. 차단하려는 특정 페이지와 일치하도록 URL을 변경할 수 있습니다.

  1. .htaccess 파일을 저장하고 서버에 다시 업로드합니다.

이 방법은 검색 엔진이 지정된 페이지를 크롤링하는 것을 방지하지만 검색 엔진이 페이지의 존재를 인식하는 것을 막지는 못합니다. 또한 이 방법은 검색 엔진 크롤러가 .htaccess 파일에 지정된 규칙을 따를 것이라는 가정을 기반으로 하며 항상 그런 것은 아닙니다.

또한 .htaccess 파일을 편집할 때 주의해야 합니다. 코드에 실수가 있으면 웹 사이트에 액세스할 수 없게 될 수 있습니다. 변경하기 전에 원본 .htaccess 파일의 백업을 유지하는 것이 좋습니다.

#4. 비밀번호 보안

암호 보호를 사용하여 검색 엔진이 WordPress 사이트를 크롤링하지 못하게 하는 것은 사이트의 특정 페이지 또는 섹션에 암호를 추가하는 것과 관련된 방법입니다. 즉, 암호가 있는 사용자만 보호된 페이지에 액세스할 수 있으며 검색 엔진은 해당 페이지를 크롤링할 수 없습니다.

WordPress 사이트의 페이지 또는 섹션을 암호로 보호하는 방법에는 여러 가지가 있습니다.

  1. 플러그인 사용 : 비밀번호 보호 또는 비밀번호 보호 범주와 같이 사이트의 페이지 또는 섹션을 비밀번호로 보호할 수 있는 여러 WordPress 플러그인이 있습니다. 이 플러그인을 사용하면 특정 페이지나 게시물 또는 전체 카테고리에 대한 비밀번호를 설정할 수 있습니다.
  2. .htaccess 파일 사용 : .htaccess 파일을 사용하여 웹사이트의 특정 디렉토리를 암호로 보호할 수 있습니다. 이 방법은 서버에서 .htaccess 파일을 편집해야 하므로 좀 더 기술적인 방법이지만 단일 페이지나 게시물이 아닌 전체 디렉토리를 암호로 보호하려는 경우 유용할 수 있습니다.
  3. cPanel 사용 : 일부 웹 호스팅 제공업체는 cPanel의 디렉터리를 암호로 보호하는 방법도 제공합니다. 이 방법은 전체 디렉토리를 비밀번호로 보호하고 .htaccess 파일 편집에 익숙하지 않은 경우에 유용할 수 있습니다.

사이트의 페이지나 섹션을 암호로 보호하면 검색 엔진에서 크롤링할 수 없습니다. 그러나 이 방법은 검색 엔진이 페이지의 존재를 인식하는 것을 막지 못한다는 점은 주목할 가치가 있습니다. 또한 사이트의 페이지나 섹션을 비밀번호로 보호하면 사용자의 액세스도 방지할 수 있으므로 사이트의 가시성이나 트래픽에 중요하지 않은 페이지나 섹션에만 암호를 사용해야 합니다.

또한 암호 보호를 사용하는 것은 장기적인 해결책이 아니므로 유지 관리 또는 테스트와 같이 사이트 또는 사이트의 특정 부분에 대한 액세스를 일시적으로 차단해야 하는 경우에만 이 방법을 사용해야 합니다.

#5. 유지 관리 모드

WordPress에는 업데이트, 유지 관리 또는 변경을 수행하는 동안 일시적으로 사이트를 오프라인으로 전환할 수 있는 유지 관리 모드 기능이 내장되어 있습니다. 이 기능은 일반적으로 방문자에게 "출시 예정" 또는 "유지 관리 모드" 페이지를 표시하는 동시에 귀하와 다른 로그인 사용자가 사이트에 액세스할 수 있도록 허용하는 데 사용됩니다.

WordPress에서 기본 제공 유지 관리 모드를 활성화하려면 다음 단계를 따르세요.

  1. WordPress 대시보드로 이동하여 "설정" 메뉴로 이동합니다.
  2. "유지 관리 모드" 옵션을 선택합니다.
  3. "유지 관리 모드 활성화" 확인란을 선택합니다.
  4. "변경 사항 저장" 버튼을 클릭합니다.

유지 관리 모드를 활성화하면 방문자에게 "출시 예정" 또는 "유지 관리 모드" 페이지가 표시되며 귀하와 다른 로그인 사용자는 사이트에 대한 전체 액세스 권한을 갖게 됩니다. 또한 유지 관리 모드에 있는 동안 검색 엔진이 사이트를 크롤링하지 못하도록 차단합니다.

또한 "출시 예정 페이지 및 SeedProd의 유지 관리 모드"와 같은 플러그인을 설치하여 출시 예정 페이지를 사용자 정의하고 유지 관리 모드에 있는 동안 검색 엔진이 사이트를 크롤링하지 못하도록 차단할 수 있습니다.

#6. 스테이징 사이트

스테이징 사이트는 테스트 및 개발 목적으로 사용되는 라이브 웹 사이트의 복제본입니다. 라이브 버전에 영향을 주지 않고 사이트에서 변경하고 새로운 기능을 테스트할 수 있습니다. 이는 웹 사이트를 업데이트하거나 주요 변경 사항을 적용하고 싶지만 사이트가 진행되는 동안 방문자나 검색 엔진이 사이트를 보는 것을 원하지 않을 때 매우 유용할 수 있습니다.

많은 호스팅 제공업체는 몇 번의 클릭만으로 라이브 사이트의 사본을 만들 수 있는 스테이징 기능을 제공합니다. 여기에는 일반적으로 스테이징 사이트에 액세스할 수 있는 기본 도메인에 별도의 하위 도메인 또는 하위 디렉터리를 만드는 작업이 포함됩니다. 스테이징 사이트를 만드는 프로세스는 호스팅 공급자에 따라 다를 수 있지만 일반적으로 다음과 같은 몇 가지 간단한 단계를 포함합니다.

  1. 호스팅 계정에 로그인합니다.
  2. 호스팅 제어판 또는 cPanel로 이동
  3. "준비" 또는 "개발" 섹션을 찾습니다.
  4. 호스팅 계정의 사이트 목록에서 웹사이트를 선택합니다.
  5. "준비 사이트 만들기" 버튼을 클릭합니다.

스테이징 사이트가 생성되면 "staging.yourdomain.com"과 같이 라이브 사이트가 아닌 다른 URL을 사용하여 액세스할 수 있습니다. 그런 다음 라이브 버전에 영향을 주지 않고 스테이징 사이트에서 변경하고 새 기능을 테스트할 수 있습니다.

스테이징 사이트는 일반적으로 인덱싱이 차단되기 때문에 검색 엔진이 스테이징 사이트를 크롤링할 수 없다는 점에 유의해야 합니다. 이는 스테이징 사이트가 검색 엔진에 표시되지 않으며 라이브 사이트의 SEO에 영향을 미치지 않음을 의미합니다. 또한 robots.txt 파일을 사용하거나 플러그인을 사용하여 사이트를 크롤링하는 검색 엔진을 차단할 수 있습니다. 검색 엔진은 개발 중인 사이트에 액세스할 수 없습니다.

스테이징 사이트에서 변경 및 테스트를 완료하면 변경 사항을 라이브 사이트로 푸시할 수 있습니다. 스테이징 사이트를 만드는 데 사용한 것과 동일한 플러그인을 사용하거나 라이브 사이트에 변경 사항을 수동으로 업로드하여 이 작업을 수행할 수 있습니다.

스테이징 사이트는 안전한 환경에서 변경 사항을 테스트하고 개발하는 데 사용되는 라이브 사이트의 복제본으로, 검색 엔진이 사이트를 크롤링하지 못하도록 차단하는 데 사용할 수 있으며 변경 사항을 라이브로 전환하기 전에 테스트할 수 있습니다. 그리고 많은 호스팅 제공업체에서 이 기능을 기본 제공 서비스로 제공합니다.

마무리

결론적으로 검색 엔진이 WordPress 사이트를 크롤링하는 것을 중지하는 데 사용할 수 있는 몇 가지 방법이 있으며 각각 고유한 장점과 제한 사항이 있습니다. 이러한 방법에는 기본 제공 유지 관리 모드, robots.txt 파일, 플러그인 사용 및 스테이징 사이트 생성이 포함됩니다. 이러한 각 방법을 사용하여 중요한 정보의 개인 정보 및 보안 보호, 트래픽 및 리소스 관리, 중복 콘텐츠 문제 방지, 라이브 사이트에 게시하기 전에 새로운 변경 사항 또는 업데이트 테스트와 같은 다양한 목표를 달성할 수 있습니다. 필요에 가장 잘 맞는 올바른 방법을 선택하고 검색 엔진이 사이트를 크롤링하지 못하도록 사이트를 올바르게 구성했는지 확인하는 것이 중요합니다.