Вышло обновление инструмента Screaming Frog SEO Spider по которому у меня есть практический курс, теперь доступна версия 18.0 под внутренним кодовым названием «Willow» («Уиллоу»).
В обновлении разработчики подготовили одну крупную функциею, которую хотели выпустить перед рождественскими праздниками, а также над множество небольших, но очень востребованных функций и улучшений.
Далее — перечисление того, что появилось нового в этом обновлении.
1. Интеграция с Google Analytics 4
Команда разработчиков осознала, что рано или поздно, но придется безвозвратно перейти на Google Analytics 4 (как известно, предыдущая версия «Universal Analytics» c 1 июля 2023 года перестанет собирать данные, а со временем пропадут и уже собранные данные). Теперь перейдя на Google Analytics 4 вы сможете подключаться к нему «лягушкой» через API и извлекать необходимые данные.

Подобно текущей интеграции Universal Analytics, данные будут появляться на вкладках «Analytics» и «Internal», когда вы начнете сканирование в режиме реального времени.

Вы можете применять различные фильтры по параметрам, которые по-сути копируют фильтры из интерфейса Google Analytics. Это фильтры со словом «Первый», группировка по значению канала сеанса (например, «organic»).
Если есть какие-либо другие фильтры и параметры, которые вы хотели бы получить в этих отчетах, напишите о них разработчикам.
2. Парсинг PDF-файлов
PDF-файлы — не самая востребованная вещь в SEO, но из-за количества корпораций и образовательных учреждений, которые запрашивали этот функционал у разработчиков, SEO Spider может сканировать PDF-файлы. А также находить в них ссылки и отображать заголовок документа (в качестве Title).
Можно проверить, работают ли ссылки в PDF-файлах должным образом, а о таких проблемах, как битые ссылки, будет сообщаться привычным образом на вкладке «Response Codes». Нижняя вкладка «Outlinks» с исходящими ссылками для таких файлов также будет заполнена, в ней будут сведения о коде ответа, анкоре и даже странице PDF-файла, на которой находится эта ссылка.

При выборе опции «Extract PDF Properties» и «Store PDF» в разделе «Config > Spider > Extraction» будут собираться данные о теме, авторе, датах создания и изменения, количествах слов и страниц.

PDF-файлы можно массово сохранить, выгрузив данные через «Bulk Export > Web > All PDF Documents».
Если вам интересно, как поисковые системы сканируют и индексируют PDF-файлы, то вот пара инсайтов из Twitter-аккаунта разработчиков SEO Spider:
1. Google преобразует PDF-файлы в HTML и индексирует их (а также обнаруживает ссылки и анкоры). В HTML включается свойство Title документа как привычный тег Title. Содержимое же свойства Description никуда не берется, а также игнорируется маркировка заголовков в документе и содержимое Alt изображений.
2. Bing не использует мета-тег Keywords при ранжировании, однако у PDF-файлов есть свойство Keywords и его уже поисковая система будет использовать, наряду с заголовком, автором, темой и датой создания документа.
3. Вкладка «Validation»
Появилась новая вкладка «Validation», которая выполняет некоторые базовые проверки валидации, которые могут повлиять на поисковые роботы при сканировании и индексировании. Это не привычная проверка HTML W3C, которая слишком строгая, цель этой вкладки — выявить реальные проблемы, которые могут повлиять на способность поисковых роботов полноценно анализировать и видеть содержимое страницы.

Большинство SEO-специалистов знают о недопустимых спецсимволах HTML в <head>, из-за которых он закрывается раньше, но есть и другие интересные исправления и причуды, которые делает браузер Chrome и работающий на его основе Google, если он видит элемент, не являющийся <head>, перед тегом <head> в HTML (он создает свой собственный пустой <head>). Или когда если есть несколько <head> или отсутствуют некоторые ключевые элементы HTML и т.д.
В отчете «Validation» реализованы следующие фильтры:
● Invalid HTML Elements In <head> — страницы с недопустимыми тегами в <head>. Когда в <head> используется недопустимый тег, Google считает что это конец контейнера <head> и игнорирует любые элементы, которые появляются после недопустимого тега. Это означает, что важное содержимое <head>, которое выводится после недопустимого тега, не будет видно поисковой системе. Контейнер <head> в соответствии со стандартом HTML зарезервирован только для тегов title, meta, link, script, style, base, noscript и template.
● <head> Not First In <html> Element — страницы с тегом, который выводится до тега <head> в HTML. Тег <head> должен быть первым в контейнере <html>. Браузеры и Googlebot автоматически создают контейнер <head>, если он не находится первым в HTML. Интересно, что если какое-то содержимое <head> по ошибке размещено до самого контейнера в <html>, то оно будет рассматриваться как часть сгенерированного <head>. Однако если элементы, отличные от <head>, такие как <p>, <body>, <img> и т. д., используются перед предполагаемым элементом <head> и его содержимым, то Google на них считает что <head> уже не будет. Это означает, что размещенный в коде контейнер <head> и его содержимое можно увидеть только в <body> и оно будет проигнорировано поиском.
● Missing <head> Tag — на странице отсутствует контейнер <head> в HTML. Контейнер <head> содержит метаданные о странице и помещается между тегами <html> и <body>. Метаданные используются для указания Title, кодировки, файлов стилей, скриптов, viewport и других данных, которые имеют критическое значение для страницы. Браузеры и Googlebot автоматически сгенерируют контейнер <head>, если он не указан в коде, однако он может не содержать значимых метаданных для страницы, на это нельзя полагаться при продвижении.
● Multiple <head> Tags — страница с несколькими контейнерами <head> в HTML. В HTML должен быть только один контейнер <head>, содержащий все важные метаданные для страницы. Браузеры и робот Googlebot будут объединять метаданные из последующих элементов <head>, если они оба находятся перед <body>, однако на это не следует полагаться, ведь в этой ситуации возможна путаница. И стоит напомнить, что любые теги <head> после начала <body> будут игнорироваться.
● Missing <body> Tag — на странице отсутствует контейнер <body> в HTML. Контейнер <body> содержит все отображаемое содержимое страницы, включая ссылки, заголовки, абзацы текста, изображения и многое другое. В HTML-коде страницы должен быть один контейнер <body>. Браузеры и Googlebot автоматически сгенерируют тег <body>, если он отсутствует в коде, однако на это не следует полагаться.
● Multiple <body> Tags — страница с несколькими тегами <body> в HTML. В HTML должен быть только один контейнер <body>, содержащий весь контент страницы. Браузеры и роботы Googlebot попытаются объединить контент из всех последующих контейнеров <body>, однако на это нельзя полагаться, есть вероятность путаницы.
● HTML Document Over 15MB — страницы, размер которых превышает 15 МБ. Это важно, поскольку робот Googlebot ограничивает сканирование и индексирование первыми 15 МБ документа (к слову, в Яндексе этот размер ещё меньше и составляет 10 МБ). Этот размер не включает ресурсы, указанные в HTML, такие как изображения, видео, CSS и JavaScript, все они извлекаются отдельно. Google рассматривает для индексации только содержимое первых 15 МБ файла и после этого прекращает сканирование. Ограничение размера файла применяется к несжатым данным. Средний размер HTML-файла составляет около 30 килобайт (КБ), поэтому маловероятно, что страницы превысят этот предел (но и такое бывает).
Со временем проверяемые данные и фильтры этого отчета будут расширяться.
4. Обновления внутри инструмента
Каждый раз, когда разработчики выпускают обновление Screaming Frog SEO Spider, всегда будет один или два пользователя, которые напоминают им, что для обновления нужно зайти на сайт, нажать на кнопку загрузки и только после этого установить свежую версию инструмента.
Это неприятный пользовательский опыт. Поэтому несмотря на приоритет внедрения более полезных функций, разработчики реализовали возможность обновления «лягушки» без переустановки.
Теперь когда будет доступна новая версия, вы получите уведомление в интерфейсе самого инструмента. Причем эта версия будет автоматически загружена в фоновом режиме. Затем её можно будет установить всего в несколько кликов.

Планируется изменить и сам установщик, поэтому скоро будет реализовано уменьшение количества кликов, необходимых для установки и автоматического перезапуска.
5. Упрощение сторонней аутентификации
Ранее единственным способом аутентификации в режиме отложенных задач или интерфейса командной строки было предоставление HTTP-заголовка «Authorization» с именем пользователя и паролем через настройку HTTP-заголовка, которая работала для аутентификации на основе обычного функционала, но не для веб-форм.
Теперь это стало делать намного проще, и не только для базовой или дайджест-аутентификации, но и для аутентификации веб-форм. В настройках «Config > Authentication» теперь вы можете указать имя пользователя и пароль для любой аутентификации на основе стандартов, которые будут запомнены, поэтому вам нужно будет указать их только один раз.

Вы также можете войти в систему, как обычно, с помощью аутентификации на основе форм, и файлы cookie будут сохранены.

Когда вы предоставили соответствующие данные или вошли в систему, вы можете перейти на новую вкладку «Profiles» и экспортировать файл .seospiderauthconfig.

Этот файл, в котором сохранена аутентификация как для стандартов, так и для аутентификации на основе форм, затем может быть предоставлен в режиме отложенных задач или интерфейсе командной строки.

Это означает, что для запланированных или автоматических обходов SEO Spider может входить не только в стандартную аутентификацию, но и в веб-формы, где это возможно.
6. Новые фильтры
На существующих вкладках теперь доступно множество новых фильтров, которые помогают лучше фильтровать данные и находить ошибки.

Многие из них уже были доступны либо через какой-то другой фильтр, либо из существующего отчета выгрузки, такого как «Redirect Chains». Однако теперь у них есть собственный специальные фильтры в пользовательском интерфейсе, что повышает удобство и доступность информации.
Что было добавлено:
● Response Codes > Redirect Chains — внутренние URL-адреса, которые перенаправляют на другой URL-адрес, который затем также перенаправляет. Это может происходить несколько раз подряд. Полные цепочки перенаправлений можно просмотреть и экспортировать через «Reports > Redirects > Redirect Chains».
● Response Codes > Redirect Loop — внутренние URL-адреса, которые перенаправляют на другой URL-адрес, который также перенаправляет на себя или предыдущий URL. Циклические цепочки перенаправления можно просмотреть и экспортировать через «Reports > Redirects > Redirect Chains» с фильтром в столбце «Loop» на «True».
● Images > Background Images — фоновые изображения в CSS и динамически загружаемые изображения, обнаруженные на сайте, которые следует использовать в некритических и декоративных целях. Фоновые изображения обычно не индексируются Google, а браузеры не читают атрибуты Alt или текст на фоновых изображениях вспомогательными технологиями.
● Canonicals > Multiple Conflicting — страницы с несколькими реализациями Canonical для URL-адресов, когда там указаны разные URL-адреса (через тег <link>, заголовок ответа сервера или в обоих местах). Это может привести к непредсказуемости, поскольку для страницы должен быть только один канонический URL-адрес, заданный одной реализацией.
● Canonicals > Canonical Is Relative — страницы с относительным, а не абсолютным тегом ссылки rel="canonical". Хотя этот тег, как и многие HTML-теги, принимает как относительные, так и абсолютные URL-адреса, с относительными путями легко допустить ошибки, которые могут вызвать проблемы, связанные с индексацией.
● Canonicals > Unlinked — URL-адреса, которые можно обнаружить только с помощью содержимого rel="canonical", на которые не стоят ссылки внутри сайта. Это может быть признаком проблемы с перелинковкой или самими URL-адресами, содержащимися в canonical.
● Links > Non-Indexable Page Inlinks Only — открытые для индексации страницы, на которые стоят ссылки только с закрытых от индексации страниц, включая страницы с Noindex, не каноничные страницы или страниц с адресами, закрытыми от сканирования в robots.txt. Закрытые от индексации страницы со временем начинают реже сканироваться поисковыми системами, а также сотрудники Google обсуждали, что ссылки с них вообще могут перестать учитываться. Всё это может повлиять на обнаружение страниц и их ранжирование. Страницы, закрыты в robots.txt вообще невозможно просканировать, а потому ссылки с этих страниц точно не будут учитываться.
7. Оценка удобочитаемости
Показатели удобочитаемости теперь рассчитываются и включаются на вкладку «Content» с новыми фильтрами «Readability Difficult» и «Readability Very Difficult».

Обратите внимание, что оценки удобочитаемости работают только для английского языка. В будущем планируется поддержку дополнительных языков или альтернативные оценки удобочитаемости (не только по индексу Flesch). Оценки удобочитаемости можно отключить в разделе «Config > Spider > Extraction».
8. Другие изменения
8.1. Вывод подсказок в строке адреса
В строке URL-адреса теперь будут отображаться предлагаемые адреса для ввода на основе вашей истории ввода, что позволяет быстро выбрать недавно введенные данные и сэкономить драгоценные секунды.

8.2. Цвета кода ответа в визуализаций
Теперь вы можете выбрать опцию «Use Response Code Node Colours» в визуализации сканирования сайта.
Это означает, что узлы без кода ответа, а также с ответами 2XX, 3XX, 4XX и 5XX будут окрашены по-разному, чтобы помочь более эффективно выявлять проблемы, связанные с ошибками ответа сервера.

8.3. Карта сайта как источник данных в планировщике
Теперь вы можете выбрать URL-адрес XML карты сайта в качестве источника при планировании и через командную строку в режиме списка, всё как в привычном пользовательском интерфейсе.

Версия 18.0 также включает ряд небольших обновлений и исправлений ошибок:
- 3 миллиона (бедные разработчики..) обновлений расширенных сниппетов Google для проверки микроразметки.
- Файл Apache-Common-Text обновлен > 1.10.0 для устранения уязвимости CVE-2022-42889.
Если у вас возникнут проблемы с версией 18.0 SEO Spider после обновления, то сообщите о них разработчикам через службу поддержки.
А если по какой-то причине вы поняли, что вообще уже не разбираетесь в том, что у Screaming Frog SEO Spider сегодня «под капотом» и как с этим работать, то записывайтесь на онлайн-курс Screaming Frog PRO.