Поисковый робот

Поисковый робот – это программа, сканирующая сайты и их содержание с целью внесения или удаления их из индекса поисковых систем. Скорость индексации, ее частота, порядок и другие параметры индивидуальны для каждого интернет-ресурса и определяются поисковыми алгоритмами.

Альтернативные названия поискового робота:

  • паук (spider);
  • бот (bot);
  • краулер (crawler) и др..

Виды краулеров в Google и Яндекс

Поисковые роботы в различных системах достаточно схожи по своему назначению. Обобщив информацию, их можно классифицировать следующим образом:

  • главные – собирают информацию с основных национальных доменов;
  • глобальные – сканируют сайты по всему миру;
  • сборщики информации по аудио и видеоконтенту, а также изображениям;
  • сканеры зеркал сайтов;
  • роботы, индексирующие ссылочную массу;
  • боты-аудиторы, проверяющие доступность страниц, их наличие в индексе;
  • быстрые роботы (быстророботы) – определяют наличие изменений и оперативно их индексируют.

Рассмотрим подробнее основные виды краулеров у поисковых систем Google и Яндекс.

Поисковые боты Google:

  • основной робот – Googlebot;
  • новостной – Googlebot News;
  • мобильный бот – Google Mobile;
  • робот, сканирующий изображения – Googlebot Images;
  • краулер видеоконтента – Googlebot Video;
  • аудитор качества страниц – Google AdsBot;
  • сканер сайтов для размещения рекламы – Google AdSense и Google Mobile AdSense.

Список пауков Яндекс:

  • основной робот;
  • робот для изображений;
  • сканер зеркал сайтов;
  • бот, определяющий соответствие страниц параметрам индексации;
  • обходчик сайтов в РСЯ;
  • отдельный робот для индексации фавиконов.

Как работают поисковые роботы?

Поисковые роботы работают в непрерывном режиме, постоянно индексируя интернет-ресурсы. Сканирование осуществляется по базе известных, находящихся в индексе сайтов на предмет наличия на них обновлений, а также появления новых ссылок, которые могут вести на новые сайты и неизвестные поисковой системе страницы.

Важно понимать, что, например, обновляемый ежедневно сайт, скорее всего, будет посещаться поисковым краулером намного чаще, чем тот, который обновляется один раз в месяц. За счет подобной особенности контент крупных новостных ресурсов способен оказаться в выдаче уже спустя несколько минут после его публикации.

Дополнительно отметим, что для повышения скорости индексации нового сайта или новых страниц, необходимо, чтобы на них вели ссылки из авторитетных источников, а также следует вручную добавлять страницы для переобхода с помощью панелей для вебмастеров. На скорость работы роботов с вашим сайтом также влияет корректно настроенная генерация файлов sitemap.xml (карта сайта), правильно работающие заголовки Last-Modified и If-Modified-Since, а также прописанные правила индексации для поисковых роботов в файле robots.txt.

Обозначения ботов для формулировки правил индексации ими сайта в поле User-Agent:

  • правила для робота Яндекс – Yandex;
  • обозначение для бота Google – Googlebot;
  • правила для Rambler – StackRambler и др.