Индексация - это процесс включения сайтов в базу поисковой системы (в её индекс). На странице собраны ответы Google касающиеся индексации сайтов.
Временно удаленные страницы могут передавать PageRank
Инструмент временного удаления в Search Console не меняет способ сканирования или индексации страницы, он просто скрывает её от появления в результатах поиска, поэтому страница все еще может передавать PageRank.
Удаленные через Search Console страницы будут по-прежнему считаться проиндексированными
Инструмент "Удаления" в Google Search Console не удаляет страницы из индекса, а скрывает их от поиска. Таким образом, удаленные страницы все еще считаются проиндексированными, хотя они и не будут отображаться в поиске.
Неясно, будет ли Mobile First индексация отсрочена из-за COVID-19
Официальной информации от Mobile First Indexing (MFI) пока нет. Скорее всего, из-за того что работа осуществляется удаленно, большинству издателей не стоит откладывать подготовку к MFI. Но, лучше всего обратиться через Twitter или иным образом к Джону Мюллеру, если вас беспокоят вопросы которые он может передать команде MFI.
Отчеты о покрытии в Search Console не включают в себя сторонние размещенные файлы Sitemap
Если вы размещаете свои файлы sitemap на стороннем сайте, они могут использоваться, но не попадут в отчеты о покрытии в Search Console.
Сводные отчеты Search Console основаны на выборке страниц
Некоторые отчеты Search Console (AMP, микроразметка, удобство для мобильных и скорость загрузки) основаны на выборке страниц страниц. Отчеты об индексации являются более комплексными и могут использоваться для выявления общих проблем.
Сокращение количества страниц на большом сайте может быть полезно
Сокращение количества страниц на очень большом сайте может помочь Google выяснить, какие страницы являются наиболее важными, но, скорее всего, не окажет никакого влияния на небольшой сайт.
Если вам необходимо временно закрыть ваш сайт из-за Covid-19, убедитесь, что он не отдает код 503
С точки зрения SEO важно отметить, не стоит закрывать сайт или страницы с кодом ответа 503. Это приведет к тому, что Google исключит страницы из результатов поиска и, скорее всего, удалит их из индекса.
Google всегда будет понятен, когда робот Google сканирует сайт
Возможно, что сотрудник Google посетит ваш сайт через браузер, в этом случае он не будет отображаться как робот Google. Однако при сканировании сайта роботом Googlebot всегда будет отображаться корректное имя, потому что информация о том какие страницы сайта были посещены и проиндексированы должна быть открытой.
Изменения nofollow для содержимого PDF такие же как и для HTML-страниц
Вы можете указать noindex для PDF-файла с помощью заголовка X-Robots-Tag вместе с любыми другими тегами в этом заголовке. Nofollow будет работать как обычно и Google не будет рассматривать ссылки документа как важные. Однако, nofollow не гарантирует что страницы на которые ссылается файл отнажды не увидит Google, ведь на эти страницы могут ссылаться и другие сайты.
Контент, скрывающейся за спойлером, все равно будет учитываться при мобильной индексации, если имеется в HTML
Google учитывает все, что содержится на HTML страницах, особенно на страницах для мобильных устройств.
Используйте sitemap ping, атрибут lastmod и отдельные файлы карты сайта для индексации обновленного содержимого
Чтобы ускорить индексацию обновленного содержимого в Google, отправьте ping Googlebot при обновлении файла sitemap, используйте атрибут lastmod с датами последнего изменения в файлах sitemap и создавайте отдельный файл sitemap для обновленного содержимого, который нужно сканировать чаще других.
Сайты могут не индексироваться из-за спама или технических ошибок
Существует большая разница между сайтом, который полностью исчезает из поиска Google, и тем, который пессимизирован в результатах поиска. Сайт, который удаляется из индекса, обычно связан с серьезным спамом или техническими проблемами. Если сайт пессимизирован и ранжируется хуже чем раньше, то причина может быть связана с качеством контента или настройками сайта. Спам посредством обратными ссылками обычно не является причиной исключения из индекса.
Индексация страниц различных порядков сортировки и фильтров
В настоящее время у Google нет рекомендаций по настройке индексирования разных версий страниц категорий, но пока мы рекомендуем открыть для индексации одну версию, например, порядка сортировки, а альтернативные варианты с различными фильтрами и порядками сортировки закрыть от индексации. Если существуют другие версии страниц категорий, которые важны, вы также можете разрешить для них индексирование только первой страницы пагинации.
Информация об индексации в Search Console точнее чем в поиске Google
Информация об индексации страниц в Search Console даёт очень точные данные, в то время как поиск Google не включает все, так как показывает данные быстро в ущерб точности
Дубль контента на том же языке для другой страны не может быть проиндексирован, но может быть показан в поиске
Если у вас есть несколько идентичных страниц на одном языке, но под разные страны, то Google посчитает их дубликатами и склеит их для индексации, но при показе в результатах поиска эта склейка может игнорироваться.
Рендеринг страниц отличается у Googlebot и пользователей
Googlebot не делает снимок рендеринга страницы в какое-то определённое время для дальнейшей индексации. Основная причина этого заключается в том, как Google обрабатывает страницы, так как рендеринг страницы для индексации отличается от рендеринга страницы в браузере пользователя. Это может привести к тому что элементы на сайте будут обрабатываться иначе чем у пользователя и рендеринг с целью индексации будет занимать дольше времени.
Если на ваши страницы наложены ручные санкции, Search Console все равно их как проиндексированные
Если на ваши страницы наложены ручные санкции или они они удалены вами (через инструмент "Удаление устаревшего контента"), инструмент проверки URL-адресов в Search Console по-прежнему будет показывать такие страницы как проиндексированные, но они не будет отображаться в результатах поиска. Это связано с тем, что ручные санкции и удаление URL-адресов являются фильтрами, которые работают поверх результатов поиска, поэтому такие страницы могут быть проиндексированы, но не будут показаны.
Технические проблемы на сайте могут привести к тому, что его контент будет индексироваться на сайтах-скраперах раньше
Если контент с сайтов-скраперов появляется в индексе раньше чем с сайта-источника, то скорее всего у этого сайта имеются технические проблемы. Например, Googlebot может не находить хаб-страницы или страницы категорий или может застревать в ловушках сканирования, следуя по URL-адресам с избыточными GET-параметрами.
Удаление директории, содержащей несколько URL-адресов, в инструменте "Удаление" в Search Console, рассматривается как один запрос
Удаление директории (папки, раздела) сайта, содержащей несколько страниц, с помощью инструмента "Удаление" в Search Console будет рассматриваться Google как один запрос на удаление. Так как существует ограничение на количество запросов на удаление, которые вы можете сделать с помощью этого инструмента, лучше всего удалять разделы сайта именно так, к тому же это избавит вас от необходимости вводить запрос на удаление для каждого URL.
Инструмент «Удаления» не влияет на выбор Google канонической или отображаемой в поиске страницы
Инструмент «Удаления» в Search Console никак не влияет на выбор Google канонической или отображаемой в результатах поиска страницы. Он просто скрывает страницу из результатов поиска.
Использование 410 ответа сервера не гарантирует быстрое удаление страниц
Чтобы удалить весь раздел сайта из индекса, лучше всего настроить для него 410 ответ сервера. Коды ответа 404 и 410 являются разными сигналами для робота Googlebot, причем 410 является более явным сигналом того, что страница была удалена. Однако, так как Google встречает большое количество неверных сигналов на сайтах, он будет использовать ваш код ответа сервера лишь в качестве подсказки, поэтому использование 410 ответа сервера все-таки не гарантирует то, что страницы будут удалены быстрее.
Google считает что страницу, содержащую canonical на другую страницу с noindex, не стоит индексировать
Если у вас на странице есть canonical, ведущий на страницу, которая не проиндексирована, то ваша страница также не будет индексироваться. Это связано с тем, что Google будет рассматривать canonical как редирект на страницу noindex и поэтому выбросит вашу страницу из индекса.
Убедитесь что страница с видео содержит описывающий его текст
У Google может не получиться определить что содержит видео, если рядом нет текста описания. Если текста нет, то у страницы с видео могут быть проблемы с индексированием, особенно если речь о крупном сайте с большим количеством таких страниц.
Сводные отчёты в Search Console сосредоточены на неполной выборке URL-адресов
Сводные отчеты в Search Console, например, отчет по удобству использования на мобильных устройствах, отчет по AMP-версиям страниц и отчет по расширенным результатам в поиске, сосредоточены лишь на выборке URL-адресов с сайта.
Для сравнения, отчет о покрытии включает в себя все проиндексированные URL-адреса, а это означает, что не стоит сравнивать итоговые числа в различных отчетах. Например. в отчете о покрытии может быть показано 4000 проиндексированных страниц, тогда как в отчете об удобстве использования для мобильных устройств общее количество страниц может составлять только 2000 (это и будет размером выборки данного отчета).
Обеспечьте индексирование страниц категорий и закройте от индексации страницы поиска по сайту
Чтобы избежать таких проблем как индексация дублей страниц и засорение сайтом индекса Google, займитесь улучшением качества страниц категорий и помощью им в индексации. Также закройте от индексации страницы внутреннего поиска, поскольку именно функционал поиска часто генерирует низкокачественные страницы.
Google не будет учитывать JavaScript, если страница отдаёт редирект или ошибку
Если у вас есть страница, часть контента которой формируется с помощью JavaScript, но при обращении к странице отдаётся перенаправление или ошибка, то Google не будет тратить время на её рендеринг. Например, если вы используете JavaScript на странице 404 для вывода сообщения об ошибке или ссылки на главную страницу. В случае редиректа от Google нужно только проследовать на новую страницу (цель перенаправления), отрисовывать саму страницу с редиректом ни к чему.
Используйте "View Source" или "Inspect Element", чтобы убедиться, что скрытый контент доступен для сканирования
Если у вас на сайте есть контент, скрытый за вкладкой (табом) или аккордеоном (спойлером), следует использовать в Chrome "View Source" ("Просмотр кода страницы") или "Inspect Element" ("Посмотреть код"), чтобы убедиться, что контент выводится в HTML при загрузке страницы. Скрытый контент, появляющийся в HTML коде страницы при её загрузке, будет рассматриваться как обычный контент страницы, однако, если для его загрузки требуется какое-то действие на странице, Google не сможет его сканировать и, как следствие, индексировать.
Только одна версия контента разделённого под разные страны будет индексироваться и отображаться в отчетах Search Console
Если у вас есть один и тот же контент на нескольких страницах или сайтах (с различными локализациями), то Google выберет только одну страницу для индексации, но будет использовать атрибуты hreflang для замены версий страницы в зависимости от местоположения пользователя. Однако в отчете об эффективности Search Console будет отображаться только та страница, которая была выбрана для индексации и использовалась как каноническая.
Google необходим доступ к файлам JavaScript и адресам, используемым для ответов на AJAX-запросы
Если ресурсы отдающие ответы на AJAX-запросы, необходимые для загрузки JavaScript при открытии страницы, заблокированы в файле robots.txt, то Googlebot не сможет увидеть и проиндексировать контент, создаваемый этими запросами.
Google при сканировании не выполняет события, которые инициирует пользователь
Googlebot не может сканировать контент появляющийся после событий, инициированных пользователем (например, он не выполняет загрузку контента, догружаемого при прокрутке страницы пользователем). Следует использовать динамический рендеринг, чтобы обеспечить сканирование контента выводимого после таких событий с помощью ссылки, а не взаимодействия со страницей.
Скорость имеет решающее значение для быстрой индексации контента Google
Чтобы быстро индексировать контент (например новостные статьи), Google должен иметь возможность быстро сканировать их страницы. То есть должен получать быстрый ответ сервера и быстро загружать содержимое страниц.
Страницы 404 ошибки могут оставаться в индексе Google
Если страница возвращает код ошибки 404, Google не будет индексировать её содержимое. Однако, если страница недавно стала отдавать код ответа 404 и Google ещё не просканировал её, она будет среди результатов поиска. Аналогичный результат будет, показывается страница 404 ошибки, но её код ответа сервера по-прежнему 200.
Контент не будет проиндексирован, если он не отображается при проверке URL
Если при проверке URL в Search Console были получены все нужные ресурсы страницы, но в готовом на странице не показан контент, то высока вероятность того, что этот контент не будет проиндексирован.
Мобильная индексация не является фактором ранжирования или показателем качества
Мобильная индексация - это всего лишь техническое изменение в способе сканирования и индексации страниц, и их включении в индекс, ориентированное на мобильные устройства. Это не дает делает сайт более качественным для Google и не влияет на ранжирование сайта.
Пустые страницы могут попадать в индекс Google, если контент меняется в зависимости от местоположения
Пустые страницы могут попадать в индексе Google, если на них контент меняется в зависимости от местоположения посетителя. Например, если контент страницы показывается посетителям из США, но не пользователям из других стран. Такая страница будет проиндексирована при сканировании роботом Googlebot из США, но посетители из других стран не увидят контент.
Инструмент удаления URL скрывает страницы от отображения, но не влияет на их сканирование или индексацию
Инструмент удаления URL только скрывает страницу из результатов поиска. Но абсолютно никак не влияет на её сканирование и индексацию.
Почти каждый сайт который Google видит впервые отрисовывается перед индексацией
Почти каждый сайт проходит два уровня индексации когда Google находит его впервые. Такой сайт не будет проиндексирован до того как будет отрисован.
Сканирование, отрисовка и индексация станут меньше растягиваться по времени с улучшением возможности рендеринга Google
В будущем стоит ожидать что сканирование, отрисовка и индексация страниц станут ещё меньше растягиваться по времени, по мере улучшения возможности рендеринга Google. Инженеры Google занимаются этим, но пока непонятно, когда это может произойти.
Проверка Mobile-Friendly игнорирует файл robots.txt
Проверка Mobile-Friendly использует ту же версию Chromium, которая используется и для рендеринга, поэтому показывает то, что Google сможет проиндексировать. Однако проверка не учитывает рекомендации из файла robots.txt, поэтому не сможет определить, блокируются ли определенные файлы JavaScript влияющие на рендеринг. Но, это можно проверить через проверку URL в Search Console.
Добавление изображений через другие источники может негативно повлиять на поисковый трафик с изображений
Встраивание изображений из других источников через iframe затрудняет их индексацию, в отличие от изображений, встроенных привычным методом - в HTML. Вдобавок к этому такие источники, как Instagram, добавляют noimageindex во встраиваемый код, что делает невозможной индексацию изображений.
Не существует отдельного индекса для индексации мобильных и настольных компьютеров
У Google есть один основной индекс, в котором содержится мобильная или десктопная версия сайта, эта версия и показывается в результатах поиска. Однако, если у вас есть отдельная мобильная версия, Google всегда будет показывать эту версию пользователям с мобильных устройств.
Используйте проверку на удобство просмотра с мобильных устройств для проверки ленивой загрузки изображений
Если вы используете JSON или JQuery для реализации ленивой загрузки (lazy load) изображений, то воспользуйтесь проверкой на удобство просмотра с мобильных устройств. Она может показать будут такие изображения загружены или нет.
Некоторые страницы могут быть полезны на сайте, но ни к чему в поиске
Некоторые страницы вашего сайта могут иметь малополезный для поиска контент, поэтому индексировать и ранжировать их не имеет смысла, но если они полезны для пользователей, в рамках самого сайта, то вы можете разместить на них noindex вместо удаления.
Google может индексировать URL с редиректами, если ссылки на них есть в карте сайта
Редиректы с URL и включение URL в карту сайта - это сигналы, которые Google использует для выбора наиболее подходящего URL для показа в поиске. Если вы перенаправляете на нужную страницу, но страница с которой происходит перенаправление есть в XML карте сайта, то у Google есть противоречивые сигналы для выбора страницы которая будет показана в поиске.
Пользовательский интерфейс Search Console и API используют один и тот же источник данных
Пользовательский интерфейс Google Search Console и API Search Console используют один и тот же источник данных, поэтому между ними не должно быть никаких расхождений в данных.
Дата последнего обновления страницы не влияет на её ранжирование
Хотя дата последнего обновления страницы полезна для пользователей, она никак не влияет на сканирование, индексирование или ранжирование страницы в результатах поиска.
Инструмент удаления URL - самый быстрый способ удалить тестовый сайт из результатов поиска
Несмотря на то что существует несколько способов удалить тестовый сайт из результатов поиска Google, в том числе заблокировать его сканирование роботом Googlebot или отдавать коды ошибок 404 или 410, эффективнее всего использовать инструмент удаления URL в Search Console. Так тестовый сайт будет удалён из поиска как можно скорее.
Метрики скорости загрузки, важные для UX, отличаются от метрик, важных для сканирования и индексирования
Даже несмотря на некоторые пересечения, показатели скорости загрузки, важные для UX, отличаются от показателей, используемых для сканирования и индексирования. В последнем случае Google должен запрашивать HTML-код страницы как можно быстрее, быстро находить новые ссылки, а также время ответа сервера должно быть минимальным.
Кэшированная версия страницы Google может отличаться от реальной страницы
Кешированная версия страницы Google - это не совсем то, что Google использует для индексации, и иногда она может немного отличаться от реальной страницы. Кроме того, дата в кэшированной версии не показывает время последнего сканирования страницы роботом Googlebot.
Инструмент проверки URL отражает текущий статус обработки содержимого страницы
Если функция «Изучить проверенную страницу» в инструменте проверки URL показывает только базовый HTML страницы, это говорит о том, что Google еще не отрисовал страницу и все еще ожидает вторую волну индексации страницы (с отрисовкой её контента).
Внутренние дубли сайта индексируются отдельно, но объединяются в группу
Google будет отдельно индексировать каждую страницу с дублирующимся контентом, но при этом выберет, какая из этих страниц наиболее релевантна для показа по запросу пользователя, и покажет только её в результатах поиска.
Google по-прежнему использует директиву "unavailable_after"
Google по-прежнему использует и обрабатывает директиву "unavailable_after" в мета-теге name=robots и заголовке X-Robots-Tag, её не стоит считать устаревшей.
У Google нет проблем доменами доступными по нескольким IP-адресам
С Google не должно возникнуть проблем, даже если ваш домен доступен по нескольким IP-адресам. Такое часто встречается у сайтов использующих CDN, где пользователи из разных мест динамически распределяются к разным серверам.
Google не обрабатывает страницы пагинации как-то иначе, чем любые другие страницы
Google обрабатывает страницы пагинации так же, как и любую другую страницу сайта. И хотя Google пытается понять, как каждая страница вписывается в контекст сайта в целом, он не применяет какую-то дополнительную проверку к страницам, чтобы выявить, что это страница пагинации.
Google может индексировать страницы, заблокированные в файле robots.txt
Google может индексировать страницы, заблокированные в файле robots.txt, если на них есть внутренние ссылки. В таком случае Google, скорее всего, будет использовать в качестве заголовка сниппета анкоры внутренних ссылок, указывающих на страницу. Правда такая страница будет редко отображаться в поиске, потому что у Google очень мало информации о ней.
Заменяйте ненужные параметры в URL на соответствующие якоря
Вы можете заменять ненужные параметры в URL якорями, потому что все, что стоит после #, обычно отбрасывается для индексации, тогда как URL с get-параметрами могут легко индексироваться.
Google ждет некоторое время, прежде чем закончит рендеринг страницы
Робот Googlebot довольно долго ожидает отрисовку контента, но невозможно сказать точное время ожидания. Нужно постараться как можно быстрее отдавать контент используя серверный рендеринг, динамический рендеринг или кэширование.
Заблокируйте тестовый сайт от сканирования Google
Вы должны запретить Google сканировать ваш тестовый сайт, так как его индексация может вызвать проблемы. Вы можете заблокировать доступ на основе user-agent (содержащего Googlebot) или с помощью файла robots.txt.