Войти
БлогПоисковые системы

Мимикрирование под поисковых роботов

2020-05-17
596
(119)
Мимикрирование под поисковых роботов

В своей работе SEO специалисты часто подменяют User-Agent для обхода сайтов конкурентов краулерами. Мы подставляем значения агента пользователя от поисковых роботов (Googlebot, YandexBot и т. д.) чтобы мимикрировать под них и избежать блокировку при посещении большого количества страниц за малое время. Также технику подмены агента пользователя могут использовать при атаках на сайт или автоматическом парсинге информации.

Давайте разберём как можно вычислить и заблокировать такие фейковые посещения сайта конкурентами.

Метод определения

Определить реально ли к нам зашел робот поисковой системы можно через обратный просмотр DNS. Он вычисляет по IP домен с которого произошел запрос. В случае если домен не соответствует роботу поисковой системы, это чья-то попытка мимикрировать.

Вручную сделать обратный просмотр DNS по IP можно с помощью онлайн-утилиты от MXToolBox.

Обратный просмотр DNS по IP YandexBot

Домены роботов

Роботы поисковых систем могут запускаться на домене отличном от самой поисковой системы, для исключения ошибки далее размещена таблица соответствия роботов и доменов. Знак звездочки (*) означает любое множество символов.

Поисковая система User-Agent Домен робота
Яндекс *Yandex*, *YaDirect* *.yandex.ru, *.yandex.net или *.yandex.com
Google *Googlebot* *.googlebot.com
Mail *Mail.RU_Bot* *.go.mail.ru
Bing *bingbot*, *BingPreview* *.search.msn.com
Yahoo *Slurp* *.yahoo.com
DuckDuckGo *DuckDuckBot* *.duckduckgo.com
Baidu *Baiduspider* *.crawl.baidu.com

В таблице не указан Рамблер. Дело в том что они ещё в 2011 году отказались от использования своего поиска и перешли на использование технологии Яндекса. Также в таблице не указаны поисковые системы имеющие уж совсем низкую популярность.

Цена ошибки

Если вы случайно заблокируете индексирующего робота популярной поисковой системы, то последствия будут действительно ужасны. В лучшем случае вы будете понижены в позициях, а в худшем вообще исключены из результатов поиска.

Стоит крепко задуматься о том нужно ли вообще блокировать такие визиты. Разумнее всего для них будет просто ввести ограничение по частоте обращения к серверу.

Оцени статью
Оставить комментарий
Отправить