Краулинговый бюджет (crawl budget) – это число страниц одного сайта, которое может обойти робот при посещении в определенный период.
Что это значит для оптимизаторов и владельцев сайта? Если коротко, то необходимо закрыть от индексации поисковыми роботами весь ненужный контент – административная часть, служебные разделы и т.д.
Зачем исключать из индекса «мусор»? Сделать это следует для того, чтобы робот не тратил свое время и ваш краулинговый бюджет на обход несущественных для результатов в поиске страниц сайта. В противном случае, для поисковика может занять достаточно продолжительное время процесс обнаружения и корректной индексации важного контента.
Оптимизация crawl budget
Для оптимизации процесса индексации сайта необходимо сделать несколько важных шагов.
- Просканируйте весь сайт с помощью специального программного обеспечения (например, Screaming Frog) для того, чтобы увидеть весь список страниц сайта и исключить из индексации мусорные.
- Внедрите корректную работу ответа сервера 304 Not Modified – роботы будут видеть, что изменений на странице не было, и нет необходимости индексировать ее заново.
От чего зависит краулинговый бюджет?
Для каждого проекта поисковые системы рассчитывают число страниц для индексации в определенный период индивидуально. На объем данного показателя влияют следующие показатели:
- текущая информация в индексе;
- популярность страницы в социальных сетях;
- ответ сервера.
Проблемы, влияющие на индексацию
На переобход и индексацию страниц влияет несколько факторов. Следует их учесть и исправить недостатки при обнаружении:
- фасетная навигация – особенно актуальная проблема для интернет-магазинов;
- присутствие идентификаторов сессий в URL;
- 404 ошибки;
- контент низкого качества – например, проходные страницы, не имеющие ценности;
- спам;
- наличие вирусов на сайте;
- страницы по типу календаря, которые генерируют бесконечное количество URL;
- низкая скорость работы сайта;
- открытые для индекса файлы CSS, AMP и т.д.
По заявлениям представителей поисковых систем краулинговый бюджет для большинства сайтов не является предметом для волнений. Волноваться стоит крупным проектам и в особенности ecommerce сайтам.
Если у вас на проекте URL генерируются автоматически, исходя из каких-то параметров, то вам стоит определить приоритеты в индексации страниц, чтобы не расходовать время роботов понапрасну.
Несколько важных фактов о crawl budget:
- он предназначен в том числе и для того, чтобы не давать чрезмерной нагрузки на сайт;
- краулинговый бюджет определяется из того, насколько интересен ваш проект поисковым системам;
- краулинговый бюджет – это число страниц, которое робот может и хочет проиндексировать в отношении конкретного сайта.