Войти
БлогТехническая оптимизация

Краулинговый бюджет сайта

2020-06-15
1093
(241)
Краулинговый бюджет сайта

Краулинговый бюджет - это количество документов сайта, которые способен обойти сканирующий робот поисковой системы (краулер) за определенный промежуток времени.

Бюджет сайта зависит от его параметров, таких как количество поискового трафика на страницу и необходимость переобхода страниц (например, если они регулярно обновляются или для всего сайта настроен редирект).

Представители Google говорят о том что при сканировании даже если сайт отлично настроен технически и робот может обойти большое количество его страниц - этого может не произойти, так как нет необходимости в обходе. Чаще всего робот старается обходить популярные страницы сайта в интернете.

Краулеры поисковых систем могут посещать сайт по несколько заходов за сутки. Для удобства и репрезентативности принято считать краулинговый бюджет сайта в масштабе не меньше суток.

Зачем он нужен

Учет краулингового бюджета сайтов помогает поисковым системам понять на какие из них стоит тратить больше усилий при сканировании нового контента, а на какие меньше.

В случае если у вас интернет-магазин с ежедневно добавляющимися товарами или новостной сайт - вы обязательно должны следить за тем с какой скоростью страницы попадают в индекс поисковых систем. Для этого о новых страницах сайта нужно сообщать поисковым системам (например, через файл sitemap) и следить за тем чтобы их роботы посетили эти страницы при следующем обходе.

Увеличив и оптимизировав краулинговый бюджет сайта вы получите быструю индексацию нужных страниц, что приведет к дополнительному росту целевого трафика и дохода вашего интернет-бизнеса. Тем не менее, стоит понимать что сканирование и ранжирование - это разные вещи.

Как увеличить

Увеличить краулинговый бюджет сайта можно нарастив его популярность в поисковой системе. То есть его должно посещать больше людей из поиска и желательно на разные страницы.

Из сказанного выше вытекает, что у вас есть три пути увеличения краулингового бюджета:

  • Делайте более качественный контент, наполняйте существующие страницы полезной информацией чтобы страницы лучше ранжировались и пользователи приходили по большему числу запросов.
  • Создавайте новые полезные страницы на сайте под поисковый спрос. Например, публикуйте экспертные статьи на популярные темы или расширяйте региональность/локализации сайта.
  • Ежедневно публикуйте полезную информацию для своих пользователей. Во многих тематиках есть запросы с хвостом "сегодня" свежесть ответов по таким запросам равна суткам.
  • Развивайте свой бренд с целью увеличения брендового трафика в поисковых системах. Методы его увеличения я уже описывал здесь.

Как оптимизировать

Вполне вероятно что краулингового бюджета у вашего сайта достаточно для своевременной индексации новых страниц. Но проблема в его неправильном использовании. Например, это возможно если робот занимается повторным сканирование старых страниц вместо новых.

GoogleBot обходит всё подряд
Для поиска новых страниц сканирующий робот Google может посещать родительский каталог, даже если его страница у вас не создана. Также он отправляет формы на сайте для посещения страниц с результатом обработки формы

Исследуйте ошибки при сканировании

Узнать какие страницы посещает робот легко, для этого можно воспользоваться инструментом SEO Log File Analyser от Screaming Frog. Инструмент разбирает загружаемые в него log-файлы и вычисляет как и какие страницы посещают поисковые роботы: YandexBot, GoogleBot, GoogleBot Smartphone, Bingbot и Baidu.

Не получить доступ к логам
Тогда полноценного анализа, увы, не получится. Но у тебя ещё осталась возможность посмотреть статистику сканирования в вебмастерах. У Google - https://www.google.com/webmasters/tools/crawl-stats, а у Яндекса - https://webmaster.yandex.ru/site/indexing/indexing/

Создайте проект, загрузите все файлы логов, перейдите в отчет "Response Codes" и выберите фильтр "Client Error (4xx)", тут будут выведены все страницы которые отдали ошибку при обращении. Стоит найти ссылки на все страницы с ответом 404 на сайте и в файле sitemap и убрать их (если это ещё не сделано), ведь их посещение ворует бюджет сканирования у новых страниц.

Также возможно вы заблокировали доступ к роботу в серверных скриптах или файле .htaccess, тогда скорее всего робот получит ответ 403 Forbidden.

Ошибки 4xx - Log File Analyzer

Обратите внимание что в правом верхнем углу можно выбрать данные по какому боту нужно показывать (по умолчанию - все), а также период за который выводятся данные.

Далее - в том же отчете смотрим данные фильтра "Redirection (3xx)". Обход страниц с редиректами расходует ваш краулинговый бюджет. Особенно плохо если на них установлен не один редирект, а целая цепочка. Также как и со страницами ошибок - проверяем нет ли на эти страницы ссылок с сайта и его sitemap, и если есть - избавляемся от них.

Ошибки 3xx - Log File Analyzer

Кроме того, полезно посмотреть данные фильтра "Server Error (5xx)": это поможет выявить справляется ли ваш сайт с нагрузкой при сканировании и стабильно ли он вообще работает.

Управляйте приоритетами сканирования

Поисковые системы учитывают рекомендации по приоритету сканирования страниц. Рекомендации по сканированию можно передать вручную, либо настроить автоматическое обновление передаваемой информации.

Вручную рекомендации передаются через сервисы Яндекса и Google. В Яндекс.Вебмастере страницы можно добавить на странице "Переобход страниц", находящейся в разделе "Индексирование" (правда там есть лимит на количество страниц в сутки). В Google Search Console нам нужно ввести адрес страницы в строке поиска в шапке и при получении данных страницы нажать на кнопку "Запросить индексирование".

Автоматически настроить приоритеты сканирования можно с помощью файла xml карты сайта. Для этого в нем указывайте у всех страниц параметры lastmod и changefreq. Не нужно ставить всем страницам частоту обновления равной daily, если они не меняются ежедневно. Для страниц новостей вообще стоит настроить частоту равной never, если вы их не обновляете со временем.

Одна из основных целей сканеров поисковых систем - предотвращение устаревания URL в индексе.

Настройте 404 ответ сервера

Для того чтобы поисковая система не решила что ваш сайт содержит множество дублирующегося контента и не сканировала несуществующие страницы в ожидании появления нового контента требуется настроить для них 404 ответ сервера.

Настройте кэширование

Кэширование позволяет не загружать заново данные которые не изменились с момента последнего посещения сканера. Поисковые системы поддерживают HTTP-заголовок ETag, сообщающий версию документа. Если версия ETag документа совпадает с той что находится в кэше, сканер не будет заново скачивать содержимое файла. Помимо ETag можно использовать заголовок Cache-Control с параметром max-age.

Также старайтесь сократить количество файлов CSS-стилей и JS-скриптов за счет их объединения. Это уменьшит нагрузку при сканировании.

Проводите нагрузочное тестирование

В своем ответе на тему краулингового бюджета представители Google открыто заявили что в первую очередь при сканировании сайта обращают внимание на то как на него реагирует сервер и не ухудшит ли это опыт пользователей которые в это время посещают сайт. Следовательно, чем большую нагрузку выдерживает наш сервер без ухудшений в скорости работы и без ошибок, тем лучше его сканирование.

Провести нагрузочное тестирование можно, например с помощью сервиса loaddy.com, до 100 пользователей это будет бесплатно. Если проверка выявит проблемы - задумайтесь о приобретении более продвинутого тарифа хостера или смене самого хостера.

Настройте rel=canonical

Настройка тега или заголовка rel=canonical с одной страницы на другую, конечно, не избавит первую страницу от обхода при сканировании. Но, со временем её сканирование должно уменьшиться, что способно высвободить краулинговый бюджет для обхода более важных страниц.

Используйте rel=nofollow

Для того чтобы робот не уходил по ссылкам на страницы не являющиеся посадочными (то есть не участвующие в ранжировании по целевым запросам), рекомендуется указывать таким ссылкам атрибут rel со значением nofollow:

<a href="https://seo-rocket.pro/cart/" rel="nofollow">Корзина</a>

Это нужно делать для страниц авторизации, корзины и других технических страниц не способных привлекать целевой поисковый трафик.

Также допускается закрытие ссылок на такие страницы через JS. Так, например, реализованы внешние ссылки у меня в блоге на странице "Обо мне".

Настройте ответа сервера 304

Настройка поддержки запроса If-Modified-Since с датой текущей датой документа в кэше позволяет сократить затраты ресурсов на сканировании.

В случае если документ не изменялся с указанной в запросе даты, сканер поисковой системы получит код ответа сервера 304 Not Modified с заголовком Last-Modified, содержащим дату последнего изменения документа. При ответе 304 сервером не отдается само содержимое документа, что также сокращает нагрузку.

Добавляйте страницы на главную

Для быстрого обхода и индексации новых страниц создайте полезные блоки со ссылками на них для главной страницы. Это могут быть блоки с новыми товарами, последними статьями блога или свежими новостями.

Помимо прочего это позволит временно повышать уровень вложенности новых страниц, что даст им дополнительный бонус при ранжировании на старте.

Заключение

Все указанное выше у вас уже настроено и ошибок при сканировании не наблюдается, но робот все равно не появляется на новых страницах? Пожалуй, это повод задуматься. А нужны ли пользователям поисковой системы вообще эти страницы..

Оцени статью
Оставить комментарий
Отправить