Поисковый робот – это программа, сканирующая сайты и их содержание с целью внесения или удаления их из индекса поисковых систем. Скорость индексации, ее частота, порядок и другие параметры индивидуальны для каждого интернет-ресурса и определяются поисковыми алгоритмами.
Альтернативные названия поискового робота:
- паук (spider);
- бот (bot);
- краулер (crawler) и др..
Виды краулеров в Google и Яндекс
Поисковые роботы в различных системах достаточно схожи по своему назначению. Обобщив информацию, их можно классифицировать следующим образом:
- главные – собирают информацию с основных национальных доменов;
- глобальные – сканируют сайты по всему миру;
- сборщики информации по аудио и видеоконтенту, а также изображениям;
- сканеры зеркал сайтов;
- роботы, индексирующие ссылочную массу;
- боты-аудиторы, проверяющие доступность страниц, их наличие в индексе;
- быстрые роботы (быстророботы) – определяют наличие изменений и оперативно их индексируют.
Рассмотрим подробнее основные виды краулеров у поисковых систем Google и Яндекс.
Поисковые боты Google:
- основной робот – Googlebot;
- новостной – Googlebot News;
- мобильный бот – Google Mobile;
- робот, сканирующий изображения – Googlebot Images;
- краулер видеоконтента – Googlebot Video;
- аудитор качества страниц – Google AdsBot;
- сканер сайтов для размещения рекламы – Google AdSense и Google Mobile AdSense.
Список пауков Яндекс:
- основной робот;
- робот для изображений;
- сканер зеркал сайтов;
- бот, определяющий соответствие страниц параметрам индексации;
- обходчик сайтов в РСЯ;
- отдельный робот для индексации фавиконов.
Как работают поисковые роботы?
Поисковые роботы работают в непрерывном режиме, постоянно индексируя интернет-ресурсы. Сканирование осуществляется по базе известных, находящихся в индексе сайтов на предмет наличия на них обновлений, а также появления новых ссылок, которые могут вести на новые сайты и неизвестные поисковой системе страницы.
Важно понимать, что, например, обновляемый ежедневно сайт, скорее всего, будет посещаться поисковым краулером намного чаще, чем тот, который обновляется один раз в месяц. За счет подобной особенности контент крупных новостных ресурсов способен оказаться в выдаче уже спустя несколько минут после его публикации.
Дополнительно отметим, что для повышения скорости индексации нового сайта или новых страниц, необходимо, чтобы на них вели ссылки из авторитетных источников, а также следует вручную добавлять страницы для переобхода с помощью панелей для вебмастеров. На скорость работы роботов с вашим сайтом также влияет корректно настроенная генерация файлов sitemap.xml (карта сайта), правильно работающие заголовки Last-Modified и If-Modified-Since, а также прописанные правила индексации для поисковых роботов в файле robots.txt.
Обозначения ботов для формулировки правил индексации ими сайта в поле User-Agent:
- правила для робота Яндекс – Yandex;
- обозначение для бота Google – Googlebot;
- правила для Rambler – StackRambler и др.