Как предотвратить парсинг контента блога в WordPress

Опубликовано: 2023-03-09


Вы ищете способ удержать спамеров и мошенников от кражи ваших сообщений в блоге WordPress с помощью скребков контента?

Владельца веб-сайта очень расстраивает то, что кто-то крадет ваш контент без разрешения, монетизирует его, превосходит вас в рейтинге Google и крадет вашу аудиторию.

В этой статье мы расскажем, что такое парсинг контента в блогах, как вы можете уменьшить и предотвратить парсинг контента и даже как использовать парсеры контента в своих интересах.

Beginner's Guide to Preventing Blog Content Scraping in WordPress

Что такое парсинг контента блога в WordPress?

Парсинг контента блога — это когда контент берется из многочисленных источников и повторно публикуется на другом сайте. Обычно это делается автоматически через RSS-канал вашего блога.

К сожалению, очень легко и очень часто крадут содержимое вашего блога WordPress таким образом. Если это случилось с вами, то вы понимаете, насколько это может быть стрессово и неприятно.

Иногда ваш контент будет просто скопирован и вставлен непосредственно на другой веб-сайт, включая форматирование, изображения, видео и многое другое.

В других случаях ваш контент будет повторно опубликован с указанием авторства и ссылкой на ваш веб-сайт, но без вашего разрешения. Хотя это может помочь вашему SEO, вы можете оставить исходный контент только на своем сайте.

Почему парсеры контента воруют контент?

Некоторые из наших пользователей спрашивали нас, почему парсеры крадут контент. Обычно основная мотивация кражи контента — получение прибыли от вашего тяжелого труда:

  • Партнерская комиссия: недобросовестные партнеры по маркетингу могут использовать ваш контент для привлечения трафика на свой сайт через поисковые системы для продвижения своих нишевых продуктов.
  • Генерация потенциальных клиентов: юристы и риелторы могут платить кому-то за добавление контента и получение авторитета в своем сообществе, не осознавая, что его собирают из других источников.
  • Доход от рекламы. Владельцы блогов могут собирать контент, чтобы создать центр знаний в определенной нише «на благо сообщества», а затем размещать на сайте рекламу.

Можно ли полностью предотвратить очистку контента?

В этой статье мы покажем вам некоторые шаги, которые вы можете предпринять, чтобы уменьшить и предотвратить очистку контента. Но, к сожалению, полностью остановить решительного вора невозможно.

Вот почему мы заканчиваем эту статью разделом о том, как вы можете воспользоваться парсерами контента. Хотя вы не всегда можете остановить вора, вы можете получить трафик и доход за счет контента, который они у вас украли.

Что делать, когда вы обнаружите, что кто-то удалил ваш контент?

Поскольку полностью остановить парсеры невозможно, однажды вы можете обнаружить, что кто-то использует контент, украденный из вашего блога. Вы можете задаться вопросом, что делать, когда это произойдет.

Вот несколько подходов, которые люди используют при работе со скребками контента:

  • Ничего не делать: вы можете потратить много времени на борьбу с парсерами, поэтому некоторые популярные блоггеры решают ничего не делать. Google уже рассматривает известные сайты как авторитетные, но это не относится к небольшим сайтам. Так что этот подход не всегда лучший, на наш взгляд.
  • Take Down: Здесь вы связываетесь со скребком и просите его удалить содержимое. Если они отказываются, вы отправляете уведомление об удалении. Вы можете узнать, как это сделать, из нашего руководства о том, как легко найти и удалить украденный контент в WordPress.
  • Воспользуйтесь преимуществом: хотя мы активно работаем над удалением контента, извлеченного из WPBeginner, мы также используем несколько методов, чтобы получить трафик и заработать деньги на парсерах. Вы можете узнать, как это сделать, в разделе «Использование преимуществ парсеров контента» ниже.

С учетом сказанного давайте посмотрим, как предотвратить очистку блога в WordPress. Поскольку это всеобъемлющее руководство, мы включили оглавление для облегчения навигации.

1. Авторское право или товарный знак на имя и логотип вашего блога

Законы о товарных знаках и авторском праве защищают ваши права на интеллектуальную собственность, бренд и бизнес от многих юридических проблем. Это включает в себя незаконное использование материалов, защищенных авторским правом, или названия и логотипа вашего бренда.

Вы должны четко отображать уведомление об авторских правах на своем веб-сайте. Хотя ваш контент автоматически подпадает под действие законов об авторском праве, отображение уведомления сообщит вам, что ваш контент защищен авторским правом и что они не могут использовать вашу защищенную собственность в коммерческих целях.

Display a Copyright Notice on Your Website

Например, вы можете добавить уведомление об авторских правах с динамической датой в нижний колонтитул WordPress. Это будет держать ваше уведомление об авторских правах в актуальном состоянии.

Это может отпугнуть некоторых пользователей от его кражи. Это также поможет в случае, если вам нужно отправить письмо о прекращении и воздержании или подать жалобу DCMA, чтобы удалить украденный контент.

Вы также можете подать заявку на регистрацию авторских прав онлайн. Этот процесс может быть сложным, но, к счастью, существуют недорогие юридические услуги, которые могут помочь малым предприятиям и частным лицам.

Узнайте, как это сделать, из нашего руководства о том, как зарегистрировать товарный знак и авторское право на название и логотип вашего блога.

Поскольку очистка содержимого блога обычно выполняется автоматически через RSS-канал вашего блога, давайте рассмотрим несколько полезных изменений, которые вы можете внести в свой канал.

Не включайте полный контент поста в ваш RSS-канал WordPress

Вы можете включить в свой RSS-канал только краткое изложение каждого сообщения вместо полного содержания. Это включает в себя отрывок, а также метаданные публикации, такие как дата, автор и категория.

В сообществе блоггеров, безусловно, ведутся споры о том, следует ли иметь полные RSS-каналы или сводные каналы. Мы не будем вдаваться в это сейчас, за исключением того, что одним из плюсов наличия только сводки является то, что она помогает предотвратить очистку контента.

Вы можете изменить настройки, перейдя в Настройки » Чтение в панели администратора WordPress. Вам нужно выбрать опцию «Выдержка», а затем нажать кнопку «Сохранить изменения».

RSS Feeds Can Contain Full Text or an Excerpt of Each Post

Теперь RSS-канал будет показывать только отрывок из вашей статьи. Если кто-то крадет ваш контент через RSS-канал, он получит только краткую информацию, а не полную публикацию.

Если вы хотите изменить сводку, вы можете посмотреть наше руководство о том, как настроить выдержки из WordPress.

Оптимизируйте свой RSS-канал, чтобы предотвратить скрейпинг

Есть другие способы, которыми вы можете оптимизируйте свой RSS-канал WordPress, чтобы защитить свой контент, получить больше обратных ссылок, увеличить веб-трафик и многое другое. Одним из лучших способов является задерживает появление сообщений в RSS-канале.

Преимущество заключается в том, что, когда вы откладываете появление сообщений в своей RSS-ленте, вы даете поисковым системам время для сканирования и индексации вашего контента, прежде чем он появится в другом месте, например, на веб-сайтах парсера. Тогда поисковые системы увидят ваш сайт как авторитетный.

Самый безопасный и простой способ сделать это — использовать WPCode, потому что у него есть рецепт, который автоматически добавляет правильный пользовательский код в WordPress.

Add a snippet using WPCode

Подробные инструкции см. в нашем руководстве о том, как отложить появление сообщений в вашей RSS-ленте WordPress.

3. Отключить трекбеки и пингбеки

На заре ведения блогов обратные ссылки и обратные ссылки были введены как способ для блогов уведомлять друг друга о ссылках. Когда кто-то ссылается на сообщение в вашем блоге, его веб-сайт автоматически отправляет пинг на ваш.

Затем этот пингбэк появится в очереди модерации комментариев вашего блога со ссылкой на их веб-сайт. Если вы одобрите его, они получат обратную ссылку и упоминание с вашего сайта.

Это дает спамеру стимул очистить ваш сайт и отправить обратные ссылки. К счастью, вы можете отключить обратные ссылки и пингбэки, чтобы у скребков стало меньше причин красть ваш контент.

Disabling Trackbacks and Pingbacks in WordPress

Для получения дополнительной информации ознакомьтесь с нашим руководством по отключению обратных ссылок во всех будущих сообщениях.

Вы также можете узнать, как отключить трекбеки и пинги для существующих постов WordPress.

4. Заблокируйте доступ парсера к вашему сайту WordPress

Один из способов помешать парсерам украсть ваш контент — лишить их доступа к вашему сайту. Вы можете сделать это вручную, заблокировав их IP-адреса, но большинству пользователей будет проще использовать подключаемый модуль безопасности, такой как брандмауэр веб-приложений.

Блокировка парсера с помощью подключаемого модуля безопасности (рекомендуется)

Блокировать скребки вручную сложно и много работы. Тем более, что многие попытки взлома и атаки осуществляются с использованием широкого спектра случайных IP-адресов со всего мира. Практически невозможно уследить за всеми этими случайными IP-адресами.

Вот почему вам нужен брандмауэр веб-приложений (WAF), такой как WordFence или Securi. Они действуют как щит между вашим сайтом и всем входящим трафиком, отслеживая трафик вашего сайта и блокируя распространенные угрозы безопасности до того, как они достигнут вашего сайта WordPress.

Для веб-сайта WPBeginner мы используем Sucuri. Это служба безопасности веб-сайтов, которая защищает ваш веб-сайт от таких атак с помощью брандмауэра приложений веб-сайта.

По сути, весь трафик вашего сайта проходит через серверы службы безопасности, где он проверяется на наличие подозрительной активности. Они автоматически блокируют доступ подозрительных IP-адресов к вашему сайту. Посмотрите, как Sucuri помогла нам заблокировать 450 000 атак на WordPress за 3 месяца.

Вручную заблокировать или перенаправить IP-адрес парсера

Опытные пользователи также могут вручную заблокировать IP-адрес парсера. Это больше работы, но вы можете специально настроить адрес парсера, как только узнаете его. Веб-разработчик Джефф Стар предлагает этот подход, когда он писал о том, как он обрабатывает парсеры контента.

Примечание. Добавление кода в файлы веб-сайта может быть опасным. Даже небольшая ошибка может привести к серьезным ошибкам на вашем сайте. Вот почему мы рекомендуем этот метод только для опытных пользователей.

Вы можете найти IP-адрес парсера, посетив «Журналы необработанного доступа» на панели инструментов cPanel вашей учетной записи хостинга WordPress. Вам нужно искать IP-адреса с необычно большим количеством запросов и вести их учет, скажем, копируя их в отдельный текстовый файл.

Blocking the Scraper's IP Address

Совет: вам нужно убедиться, что вы не заблокируете себе, законным пользователям или поисковым системам доступ к вашему веб-сайту. Скопируйте подозрительный IP-адрес и используйте онлайн-инструменты для поиска IP-адресов, чтобы узнать о нем больше.

Если вы уверены, что IP-адрес принадлежит парсеру, вы можете заблокировать его с помощью инструмента cPanel «IP Blocker» или добавив такой код в свой корневой файл .htaccess:

Убедитесь, что вы заменили IP-адрес в коде на тот, который хотите заблокировать. Вы можете заблокировать несколько IP-адресов, введя их в одной строке через пробел.

Подробные инструкции см. в нашем руководстве о том, как заблокировать IP-адреса в WordPress.

Вместо того, чтобы просто блокировать скрейперы, Джефф предлагает вместо этого отправлять им фиктивные RSS-каналы. Вы можете создавать каналы, полные Lorem Ipsum и раздражающих изображений, или даже отправлять их обратно на их собственный веб-сайт, вызывая бесконечный цикл и сбой их сервера.

Чтобы перенаправить их на фиктивный канал, вам нужно будет добавить такой код в ваш файл .htaccess:

RewriteCond %REMOTE_ADDR 123.456.789.
RewriteRule .* http://dummyfeed.com/feed [R,L]

5. Предотвратите кражу изображений в WordPress

Вам нужно защищать не только письменный контент. Вы также должны предотвратить кражу изображений в WordPress.

Как и в случае с текстом, невозможно полностью остановить людей от кражи ваших изображений, но есть множество способов воспрепятствовать краже изображений на веб-сайте WordPress.

Например, вы можете отключить хотлинкинг ваших изображений WordPress. Это будет означать, что если кто-то очистит ваш контент, его изображения не будут загружаться на его сайт.

Это также уменьшит нагрузку на ваш сервер и использование полосы пропускания, повысив скорость и производительность вашего WordPress.

Кроме того, вы можете добавить к своим изображениям водяной знак, который дает вам кредит. Это даст понять, что парсер украл ваш контент.

Вы можете изучить эти два метода, а также другие способы защиты ваших изображений в нашем руководстве по 4 способам предотвращения кражи изображений в WordPress.

6. Не поощряйте ручное копирование вашего контента

В то время как большинство парсеров используют автоматические инструменты, некоторые воры контента могут попытаться вручную скопировать весь ваш контент или его часть.

Один из способов усложнить это — запретить им копировать и вставлять ваш текст. Вы можете сделать это, затруднив им выбор текста на вашем сайте.

Чтобы узнать, как остановить ручное копирование вашего контента, ознакомьтесь с нашим пошаговым руководством о том, как предотвратить выделение текста и копирование/вставку в WordPress.

Однако это не защитит ваш контент полностью. Помните, технически подкованные пользователи по-прежнему могут просматривать исходный код или использовать инструмент Inspect для копирования всего, что им нужно. Кроме того, этот метод не будет работать со всеми веб-браузерами.

Кроме того, имейте в виду, что не каждый, кто копирует ваш текст, будет вором контента. Например, некоторые люди могут захотеть скопировать заголовок, чтобы поделиться вашей публикацией в социальных сетях.

Вот почему мы рекомендуем вам использовать этот метод только в том случае, если вы считаете, что он действительно необходим для вашего сайта.

7. Воспользуйтесь преимуществами парсеров контента

По мере того, как ваш блог становится больше, почти невозможно остановить или отследить все парсеры контента. Мы по-прежнему рассылаем жалобы DMCA. Тем не менее, мы знаем, что есть множество других сайтов, которые крадут наш контент, и мы просто не можем угнаться за ними.

Вместо этого наш подход состоит в том, чтобы попытаться воспользоваться преимуществами скейперов контента. Это не так уж плохо, когда вы видите, что зарабатываете деньги на украденном контенте или получаете много трафика с веб-сайта парсера.

Сделайте внутренние ссылки привычкой, чтобы получить трафик и обратные ссылки с парсеров

В нашем окончательном руководстве по SEO мы рекомендуем сделать внутренние ссылки привычкой. Размещая ссылки на другой контент в своих сообщениях в блоге, вы можете увеличить количество просмотров страниц и снизить показатель отказов на своем собственном сайте.

Но есть и второе преимущество, когда дело доходит до очистки. Внутренние ссылки принесут вам ценные обратные ссылки от людей, которые воруют ваш контент. Поисковые системы, такие как Google, используют обратные ссылки в качестве сигнала ранжирования, поэтому дополнительные обратные ссылки хороши для вашего SEO.

Наконец, эти внутренние ссылки позволяют вам украсть аудиторию парсера. Талантливые блоггеры размещают ссылки по интересным ключевым словам, вызывая у пользователей соблазн перейти по ссылке. Посетители веб-сайта парсера также будут нажимать на ссылки, которые приведут их прямо на ваш собственный веб-сайт.

Ключевые слова с автоматическими ссылками на партнерские ссылки, чтобы зарабатывать деньги на парсерах

Если вы зарабатываете на своем веб-сайте с помощью партнерского маркетинга, мы рекомендуем включить автоматическое связывание в ваших RSS-каналах. Это поможет вам максимизировать свой доход от читателей, которые читают ваш сайт только через программы для чтения RSS.

Более того, это поможет вам зарабатывать деньги на сайтах, которые крадут ваш контент.

Просто используйте плагин, такой как ThirstyAffiliates, который автоматически заменит назначенные ключевые слова партнерскими ссылками. В нашем руководстве мы покажем вам, как автоматически связывать ключевые слова с партнерскими ссылками в WordPress.

Продвигайте свой сайт в нижнем колонтитуле RSS

Вы можете использовать плагин All in One SEO, чтобы добавлять пользовательские элементы в нижний колонтитул RSS. Например, вы можете добавить баннер, рекламирующий ваши собственные продукты, услуги или контент.

AIOSEO RSS feed footer save

Самое приятное то, что эти баннеры появятся и на веб-сайте парсера.

В нашем случае мы всегда добавляем небольшой отказ от ответственности внизу сообщений в наших RSS-каналах. Делая это, мы получаем обратную ссылку на исходную статью с сайта парсера.

Это позволяет Google и другим поисковым системам знать, что мы являемся авторитетом. Это также позволяет их пользователям узнать, что сайт крадет наш контент.

Чтобы получить дополнительные советы, ознакомьтесь с нашим руководством о том, как управлять нижним колонтитулом RSS-канала в WordPress.

Мы надеемся, что это руководство помогло вам узнать, как предотвратить очистку содержимого блога в WordPress. Вы также можете ознакомиться с нашим исчерпывающим руководством по безопасности WordPress или ознакомиться с нашим списком лучших аналитических решений для WordPress.

Если вам понравилась эта статья, подпишитесь на наш канал YouTube для видеоуроков по WordPress. Вы также можете найти нас в Twitter и Facebook.