Анализ файла Sitemap позволяет вовремя обнаружить ошибки в карте сайта, которые мешают корректной индексации интернет-проекта. Самые распространённые примеры таких ошибок мы рассмотрим чуть далее. Однако сначала немного проясним что из себя представляет данный документ и как его можно создать.
Что такое карта сайта?
Sitemap — это текстовый документ в формате xml или txt. В нём указан список ссылок на все разделы, подразделы и страницы ресурса, продвигаемые в поисковых системах.
Периодически поисковый робот обращается к файлу Sitemap и проводит анализ его содержимого на наличие новых ссылок. Благодаря этому поисковые системы почти сразу видят изменения на сайте и быстрее индексируют новую информацию. Это, в свою очередь, напрямую влияет на скорость появления таких страниц в поиске и их продвижение в интернете.
К слову, на некоторых ресурсах может быть сразу две карты сайта: для роботов и пользователей. Они имеют одинаковое содержание. Отличие только в том, что для посетителей файл создаётся в формате html и помогает им лучше ориентироваться в структуре проекта.
Создание и настройка Sitemap
Для создания карты сайта можно использовать любой текстовый редактор. Описание ссылок на страницы ресурса передают в документе с помощью специальных XML-тегов.
Однако ручное создание такого документа требует слишком большого количества времени. Поэтому специалисты обычно пользуются автоматическими генераторами, которые сканируют ресурс и последовательно добавляют в документ все ссылки. Особенно этот способ удобен, если у вас большой проект с кучей страниц.
Загрузка файла на сервер
После создания документа его необходимо загрузить на сервер. Расположение карты сайта может быть только в корневой директории ресурса.
Чтобы поисковик увидел Sitemap, необходимо указать соответствующую директиву в документе роботс (robots.txt). Ускорить процесс можно, загрузив документ в панели вебмастера.
Проверка валидности карты сайта с помощью панели вебмастера
Самостоятельно проверить корректность составления карты сайта можно с помощью встроенного инструмента Яндекса по ссылке: https://webmaster.yandex.ru/tools/sitemap/.
Аналогичный инструмент есть также у Гугл в Search Console.
Распространённые ошибки
URL-адреса возвращают код ответа 404
В карте сайта не должно быть битых ссылок. Если какая-либо страница при обращении робота возвращает 404-ошибку, она не будет проиндексирована и не попадёт в учёт поисковой системы.
Переход по ссылке не выполнен
Если ссылки будут выполнять слишком много перенаправлений (редиректов), поисковые роботы не смогут их открыть. Проблема может возникнуть в следующих случаях:
- Вместо постоянных перенаправлений между страницами вы используете переадреcации с помощью JavaScript или мета-тега refresh.
- Вы используете относительные ссылки (например, o_kompanii.html) вместо абсолютных (например, https://www.example.com/o_kompanii.html).
Недействительные URL-адреса
Если в карте сайта содержатся ссылки на домен более высокого уровня или на другой домен, поисковый робот не сможет их обработать. Например, если документ находится на странице http://www.ucoz.com/vash_sait/sitemap.xml, для него недействительны следующие ссылки:
- http://www.ucoz.com/;
- http://www.ucoz.com/your_site/.
Ошибка в адресе ссылок
Очень часто при техническом анализе файлов Sitemap мы наблюдаем такую ошибку:
Сайт расположен на домене http://www.sait.ru/. При этом в карте сайта ссылки на страницы имеют следующий вид:
- http://example.com/ — без «www» в начале;
- www.example.com/ — без префикса протокола «http»;
- https://www.example.com/ — указан протокол «https» вместо «http».
Ошибки в синтаксисе
Самое сложное в процессе анализа файла Sitemap — проверить правильность применение кодировки, а также тегов и их параметров. Например, причиной ошибки может стать неправильная кодировка (должна быть UTF-8), двукратное повторение xml-тега loc, и т.д. С этой проблемой лучше обратиться к специалисту.
Большой размер документа или большое количество ссылок
Согласно требованиям поисковых систем размер карты сайта не должен весить больше 10 мегабайт. Аналогично в документе не должно быть более 50 000 ссылок. Если в процессе анализа вы обнаружили, что одно из этих значений превышено, разделите Sitemap на несколько файлов. Названия таким документам можно давать произвольные. Только не забудьте указать ссылки на них в robots.txt.
Неверный формат даты
Даты в документе должны соответствовать кодировке W3C (например, 2019-02-25). Время указывать не обязательно.
Использование недопустимых символов в URL-адресе
В ссылках нельзя использовать пробелы, кавычки, знаки «& ‘ " < >» и т. д. Чтобы робот при обращении к документу мог корректно прочитать ссылку, которая содержит такие символы, используйте правила экранирования.
Робот не видит Sitemap
Если при очередном анализе проекта поисковый робот не обнаружит карту ресурса, в Яндекс.Вебмастере (Yandex.Webmaster) и Google Search Console появится соответствующее уведомление.
Такая проблема может появиться, если в robots.txt отсутствует соответствующая строка со ссылкой на карту сайта или применяется запрещающая директива disallow. Подробнее об этом мы рассказывали в статье «Нет используемых роботом файлов Sitemap«.
Карта сайта содержит URL, доступ к которым заблокирован в файле robots.txt
Чтобы устранить данную проблему необходимо разрешить индексирование страниц в документе robotx.txt.
Исправление ошибок в карте сайта и проверка её статуса
Поисковые роботы регулярно проводят анализ файла Sitemap на обновления и ошибки. Если вы хотите ускорить этот процесс, можно сообщить роботу об изменениях вручную через панель вебмастера.
Однако имейте в виду, что в Яндекс.Вебмастере использовать данную функцию можно до 10 раз для одного хоста. Если вы воспользуетесь всеми попыткам, следующая возможность уведомить робота об обновлении появится только через 30 дней.