Директивы в Robots.Txt

Одним из способов управления индексацией вашего сайта является установка текстового документа robots.txt. С его помощью можно исключать нежелательные страницы, разрешать или запрещать индексацию сайта, производить склейку, а также определять главный сайт среди зеркал. Всё это обеспечивается посредством директив.

В robots.txt выделяют следующие виды директив:
User-agent: разрешает индексацию для поисковых систем.
Allow: разрешение к индексации конкретных страниц сайта
Disallow: запрет на индексацию конкретных страниц сайта
Clean-param: указывает динамическое содержание страниц, например формирующие реферальные ссылки. Делается это для облегчения работы робота. Хотя в принципе особой пользы для вашего сайта это не даст, тем более, что те же самое урлы можно запретить с помощью Disallow:
Crawl-delay: если сервер несёт сильные нагрузки, бывает, что робот не может обрабатывать в полном объёме всю информации. Чтобы решить данную проблему можно использовать директиву «Crawl-delay»: Она позволяет задать поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей.
Host: данная директива предусмотрена для указания главного сайта среди зекрал. Причём в поиске будет участвовать лишь тот сайт, который будет указан в самой директивы, остальные же будут исключены. Стоит помнить, что директива Host не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом