Как редактировать файл robots txt. Как редактировать файл robots txt Как добавить файл robots txt

Файл robot.txt – необходим для большинства сайтов.

Каждый SEO-оптимизатор должен понимать смысл этого файла, а также уметь прописывать самые востребованные директивы.

Правильно составленный robots улучшает положение сайта в поисковой выдаче и, среди прочих методов продвижения , является эффективным инструментом SEO .

Чтобы разобраться в том, что такое robot.txt и как он действует, вспомним, как работают поисковики.

Чтобы проверить его наличие, введите в адресную строку корневой домен, затем добавьте /robots.txt в конец URL-адреса.

Например, файл робот Moz находится по адресу: moz.com/robots.txt. Вводим, и получаем страницу:

Инструкции для «робота»

Как создать файл robots.txt?

3 типа инструкций для robots.txt.

Если обнаружили, что файл robots.txt отсутствует, создать его несложно.

Как уже было сказано в начале статьи – это обычный текстовый файл в корневом каталоге сайта.

Его можно сделать через админ-панель или файл-менеджер, с помощью которого программист работает с файлами на сайте.

В том, как и что там прописывать, мы разберемся по ходу статьи.

Поисковые системы получают из этого файла инструкции трех типов:

  • сканировать все, то есть полный доступ (Allow);
  • сканировать нельзя ничего – полный запрет (Disallow);
  • сканировать отдельные элементы нельзя (указано какие) – частичный доступ.

На практике это имеет вот такой вид:

Обратите внимание, страница все равно может попасть в выдачу, если на нее установили ссылку на этом сайте или вне его.

Чтобы лучше в этом разобраться, давайте изучим синтаксис этого файла.

Синтаксис Robots.Txt

Robots.txt: как он выглядит?

Важные моменты: что нужно всегда помнить о robots.

Семь общих терминов, которые часто встречаются на сайтах.

В самой простой форме робот имеет такой вид:

User agent: [имя системы, для которой мы пишем директивы] Disallow: Sitemap: [указываем, где у нас лежит карта сайта] # Правило 1 User agent: Googlebot Disallow: /prim1/ Sitemap: http://www.nashsite.com/sitemap.xml

Вместе эти три строки считаются самым простым robots.txt.

Здесь мы запретили боту индексировать URL: http://www.nashsite.com/prim1/ и указали где находится карта сайта.

Обратите внимание: в файле robots набор директив для одного пользовательского агента (поисковика) отделен от набора директив для другого разрывом строки.

В файле с несколькими директивами для поисковых систем каждый запрет или разрешение применяется только к поисковику, указанному в этом конкретном блоке строк.

Это важный момент и о нем нельзя забывать.

Если файл содержит правила, применимые к нескольким пользовательским агентам, система будет отдавать приоритет директивам, которые прописаны конкретно для указанного поисковика.

Вот пример:

На иллюстрации выше – для MSNbot, discobot и Slurp прописаны индивидуальные правила, которые будут работать только для этих поисковиков.

Все остальные пользовательские агенты следуют общим директивам в группе user-agent: *.

Синтаксис robots.txt абсолютно не сложен.

Существуют семь общих терминов, которые часто встречаются на сайтах.

  • User-agent: специфический веб-поисковик (бот поисковой системы), которому Вы даете инструкции обхода. Список большинства пользовательских агентов можно найти здесь. Всего в нем 302 системы, из которых наиболее актуальны две – Гугл и Яндекс.
  • Disallow: команда запрета, указывающая агенту, что не нужно заходить на URL. Для каждого URL разрешена только одна строка «disallow».
  • Allow (применимо только для Googlebot): команда сообщает боту, что он может получить доступ к странице или подпапке, даже если ее родительская страница или подпапка были закрыты.
  • Crawl-delay (задержка сканирования): сколько миллисекунд поисковик должен ждать перед загрузкой и обходом содержимого страницы.

Обратите внимание – Googlebot не поддерживает эту команду, но скорость сканирования может быть вручную установлена ​​в Google Search Console.

  • Sitemap: Используется для вызова местоположения любых XML-карт, связанных с этим URL-адресом. Эта команда поддерживается только Google, Ask, Bing и Yahoo.
  • Host: эта директива указывает на основное зеркало сайта, которое стоит учитывать при индексации. Его можно прописать только один раз.
  • Clean-param: это команда используется для борьбы с дублированием контента при динамической адресации.

Регулярные выражения

Регулярные выражения: как они выглядят и что обозначают.

Как разрешать и запрещать сканировать в robots.txt.

На практике файлы robots.txt могут разрастаться и становиться довольно сложными и громоздкими.

Система дает возможность использовать регулярные выражения, чтобы обеспечить требуемый функционал файла, то есть гибко работать со страницами и подпапками.

  • * является подстановочным символом, обозначает что директива работает для всех поисковых ботов;
  • $ соответствует концу URL-адреса или строки;
  • # применяется для комментариев разработчиков и оптимизаторов.

Вот несколько примеров robots.txt для http://www.nashsite.com

URL-адрес файла robots.txt: www.nashsite.com /robots.txt

User-agent: * (то есть для всех поисковых систем) Disallow: / (слеш обозначает корневой каталог сайта)

Мы только что запретили всем поисковикам сканировать и индексировать сайт целиком.

Как часто требуется такое действие?

Нечасто, но бывают случаи, когда нужно чтобы ресурс не участвовал в поисковой выдаче, а заходы производились по специальным ссылкам или через корпоративную авторизацию.

Так работают внутренние сайты некоторых фирм.

Кроме того, такая директива прописывается, если сайт находится на стадии разработки или модернизации.

Если нужно разрешить поисковику сканировать вообще все, что есть на сайте, тогда нужно написать в robots.txt такие команды:

User-agent: * Disallow:

В запрете (disallow) нет ничего, а значит можно все.

Использование этого синтаксиса в файле robots.txt предоставляет возможность сканерам обходить все страницы на http://www.nashsite.com, включая домашнюю страницу, админку и контакты.

Блокировка определенных поисковых ботов и отдельных папок

Синтаксис для поисковика Google (Googlebot).

Синтаксис для остальных поисковых агентов.

User-agent: Googlebot Disallow: / example-subfolder /

Этот синтаксис указывает только поисковику Google (Googlebot), что не нужно сканировать адрес: www.nashsite.com/example-subfolder/.

Блокировка отдельных страниц для указанных ботов:

User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html

Этот синтаксис говорит, что только Bingbot-у (имя поискового агента Bing), не следует заходить на страницу по адресу: www.nashsite.com /example-subfolder/blocked-page.

По сути это все.

Если освоите эти семь команд и три символа и разберетесь в логике применения, сможете написать правильный robots.txt.

Почему не работает и что делать

Алгоритм основного действия.

Другие методы.

Неправильно работающий robots.txt – это проблемы.

Ведь на то, чтобы выявить ошибку, а потом разобраться в ней, потребуется время.

Перечитайте файл, убедитесь, что Вы не заблокировали что-то лишнее.

Если через время окажется, что страница все равно висит в выдаче, посмотрите в Google Webmaster, переиндексировал ли сайт поисковик, ну и проверьте, нет ли внешних ссылок на закрытую страницу.

Потому что, если они есть – то скрыть ее из выдачи будет сложнее, потребуются другие методы .

Ну и перед использованием, проверьте этот файл бесплатным тестером от Google .

Своевременный анализ помогает избежать неприятностей и экономит время.

Далеко не все современные вебмастеры умеют работать с HTML-кодом. Многие даже не знают, как должны выглядеть функции, прописанные в ключевых файлах CMS. Внутренности вашего ресурса, такие как файл robots.txt, являются интеллектуальной собственностью, в которой владелец должен быть, как рыба в воде. Тонкая настройка сайта позволяет повысить его поисковые рейтинги, вывести в топ и успешно собирать трафик.

Файл robots.txt — один из основных элементов подгонки ресурса под требования поисковых систем. Он содержит техническую информацию и ограничивает доступ к ряду страниц поисковым роботам. Ведь далеко не каждая написанная страница должна непременно оказаться в выдаче. Раньше для создания файла robots txt был необходим доступ через FTP. Равитие CMS открыло возможность получить к нему доступ прямо через панель управления.

Для чего нужен файл robots.txt

Этот файл содержит ряд рекомендаций, адресованных поисковым ботам. Он ограничивает их доступ к некоторым частям сайта. Из-за размещения этого файла в корневом каталоге, боты никак не смогут его пропустить. В результате, попадая на ваш ресурс, они сначала читают правила его обработки, а уже только после этого начинают проверку.

Таким образом, файл указывает поисковым роботам, какие директории сайта разрешены для индексирования, и какие этому процессу не подлежат.

Учитывая, что на процесс ранжирования наличие файла напрямую не влияет, много сайтов не содержат robots.txt. Но путь полного доступа нельзя считать техически правильным. Рассмотрим преимущества robots.txt, которые он дает ресурсу.

Можно запретить индексирование ресурса целиком или частично, ограничить круг поисковых роботов, которые будут иметь право на проведение индексирования. Приказывая robots.txt запретить все, вы сможете полностью изолировать ресурс на время ремонта или реконструкции.

Кстати, разработчики Гугл неоднократно напоминали веб-мастерам, что файл robots.txt не должен превышать по размерам 500 Кб. Это непременно приведет к ошибкам при индексации. Если создавать файл вручную, то «достичь» такого размера, конечно, нереально. Но вот некоторые CMS, автоматически формирующие содержание robots.txt, могут значительно его перегрузить.

Простое создание файла для любого поисковика

Если вы боитесь заниматься тонкой настройкой самостоятельно, её можно провести автоматически. Существуют конструкторы, собирающие подобные файлы без вашего участия. Они подходят людям, которые только начинают своё становление в качестве вебмастеров.

Как видно на изображении, настройка конструктора начинается с введения адреса сайта. Далее вы выбираете поисковые системы, с которыми планируете работать. Если вам не важна выдача той или иной поисковой системы, то нет необходимости создавать под неё настройки. Теперь переходите к указанию папок и файлов, доступ к которым планируете ограничить. В данном примере вы сможете указать адрес карты и зеркала вашего ресурса.

Robots.txt generator будет заполнять форму по мере наполнения конструктора. Всё, что в дальнейшем от вас потребуется — это скопировать полученный текст в txt-файл. Не забудьте присвоить ему название robots.

Как проверить эффективность файла robots.txt

Для того, чтобы проанализировать действие файла в Яндексе, следует перейти на соответствующую страницу в разделе Яндекс.Вебмастер . В диалоговом окне укажите имя сайта и нажмите кнопку «загрузить».

Система проанализирует файл robots.txt проверка покажет, будет ли поисковый робот обходить страницы, запрещенные к индексации. Если возникли проблемы, директивы можно отредактировать и проверить прямо в диалоговом окне. Правда после этого вам придётся скопировать отредактированный текст и вставить в свой файл robots.txt в корневом каталоге.

Аналогичную услугу предоставляет сервис «Инструменты для веб-мастеров» от поисковика Google.

Создание robots.txt для WordPress , Joomla и Ucoz

Различные CMS, получившие широкую популярность на просторах Рунета, предлагают пользователям свои версии файлов robots.txt. Некоторые из них не имеют таких файлов вовсе. Зачастую эти файлы либо слишком универсальны и не учитывают особенностей ресурса пользователя, либо имеют ряд существенных недостатков.

Опытный специалист может вручную исправить положение (при недостатке знаний так лучше не делать). Если вы боитесь копаться во внутренностях сайта, воспользуйтесь услугами коллег. Подобные манипуляции, при знании дела, занимают всего пару минут времени. Например, robots.txt может выглядеть таким образом:

В последних двух строчках, как несложно догадаться, нужно прописать данные собственного ресурса.

Заключение

Есть ряд навыков, обязательных для освоения любым вебмастером. И самостоятельная настройка и ведение сайта — один из них. Начинающие сайтостроители могут таких дров наломать во время отладки ресурса, что потом не разгребёшь. Если вы не хотите терять потенциальную аудиторию и позиции в выдаче из-за структуры сайта, подходите к процессу её настройка основательно и ответственно.

Приветствую Вас друзья и подписчики моего блога. Сегодня на повестке дня Robots.txt, все что Вы хотели о нем знать, вкратце, без лишней воды.

Что такое Robots.txt и зачем он нужен

Robots.txt нужен для того, чтобы указать поисковику (Яндексу, Google и др.) как правильно (с Вашей точки зрения) нужно индексировать сайт. Какие страницы, разделы, товары, статьи нужно индексировать, а какие наоборот, не нужно.

Robots.txt это обыкновенный текстовый файл (с разрешением.txt) , который был принят консорциумом W3C 30 января 1994 года, и который используют большинство поисковых систем, и выглядит он обычно так:

Как он влияет на продвижение Вашего сайта?

Для успешного продвижения сайта необходимо, чтобы в индексе (базе) Яндекса и Google были только нужные страницы сайта. Под нужными страницами я понимаю следующие:

  1. Главная;
  2. страницы разделов, категорий;
  3. Товары;
  4. Статьи;
  5. Страницы “О компании”, “Контакты” и т.п.

Под НЕ нужными страницами я подразумеваю следующие:

  1. Страницы-дубликаты;
  2. Страницы печати;
  3. Страницы результатов поиска;
  4. Системные страницы, страницы регистрации, входа, выхода;
  5. Страницы подписки (feed);

К примеру, если в индексе поисковика будут находиться дубликаты основных продвигаемых страницы, то это вызовет проблемы с уникальностью контента внутри сайта, а также негативно повлияет на позиции.

Где он находится?

Файл как правило лежит в корне папки public_html на Вашем хостинге, вот здесь:

Что Вы должны знать о файле Robots.txt

  1. Инструкции robots.txt носят рекомендательный характер. Это значит, что настройки являются указаниями, а не прямыми командами. Но как правило, и Яндекс и Google следуют указаниям без всяких проблем;
  2. Файл может размещаться только на сервере;
  3. Он должен лежать в корне сайта;
  4. Нарушение синтаксиса ведет к некорректности файла, которое может негативно сказаться на индексации;
  5. Обязательно проверяйте правильность синтаксиса в панели Яндекс Вебмастер!

Как закрыть от индексации страницу, раздел, файл?

Например, я хочу закрыть от индексации в Яндексе страницу: http://сайт/page-for-robots/

Для этого, мне необходимо использовать директиву “Disallow” и URL страницы (раздела, файла). Выглядит это следующим образом:

User-agent: Yandex
Disallow: /page-for-robots/
Host: сайт

Если я захочу закрыть категорию
User-agent: Yandex
Disallow: /category/case/
Host: сайт

Если я захочу закрыть весь сайт от индексации, кроме раздела http://сайт/category/case/, то необходимо будет сделать так:

User-agent: Yandex
Disallow: /
Allow: /category/case/
Host: сайт

Директива “Allow”, наоборот, говорит о том, какую страницу, раздел, файл, нужно индексировать.

Думаю логика построения Вам стала понятна. Обратите внимание, что правила будут действовать только для Яндекса, так как указан User-agent: Yandex. Google же, будет игнорировать эту конструкцию и будет индексировать весь сайт.

Если хотите написать универсальные правила для всех поисковых систем, используйте: User-agent: *. Пример:

User-agent: *
Disallow: /
Allow: /category/case/
Host: сайт

User-agent – это имя робота, для которого предназначена инструкция. По умолчанию стоит * (звёздочка) – это означает, что инструкция предназначена для абсолютно всех поисковых роботов.
Наиболее распространённые имена роботов:

  • Yandex – все роботы поисковой системы Яндекса
  • YandexImages – индексатор изображений
  • Googlebot – робот Гугла
  • BingBot – робот системы Bing
  • YaDirectBot – робот системы контекстной рекламы Яндекса.

Ссылки на детальный обзор всех директив Яндекса и Google .

Что обязательно должно быть в Вышем файле Роботс.тхт

  1. Настроена Директива Host. В ней должно быть прописано основное зеркало Вашего сайта. Основные зеркала: site.ru или www .site.ru. Если Ваш сайт с https , то это также обязательно должно быть указано. Основное зеркало в host и в Яндекс.Вебмастер должно совпадать.
  2. Должны быть закрыты от индексации (директивой Disallow:) разделы и страницы сайта, не несущие полезной нагрузки, а также страницы с дублями контента, страницы печати, результатов поиска и системные страницы.
  3. Укажите ссылку на sitemap.xml (карту Вашего сайта в формате xml).
    Sitemap: http://site.ru/sitemap.xml

Указание главное зеркала

Сперва необходимо узнать, какое зеркало у Вас главное по умолчанию. Для этого введите URL вашего сайта в Яндексе, наведите на URL в выдаче и слева внизу в окне браузера будет указано, с www домен, или без. В данном случае, без WWW.

Если домен указан с https , то и в Robots и в Яндекс.Вебмастер необходимо указать https ! Выглядит это следующим образом:

Правильная, грамотная настройка корневого файла robots.txt одна из важнейших задач WEB-мастера. В случае непростительных ошибок в поисковой выдаче может появиться множество ненужных страниц сайта. Или, наоборот, будут закрыты для индексирования важные документы вашего сайта, в худшем случае, можно закрыть для поисковых роботов всю корневую директорию домена.

Правильная настройка файла robots.txt своими руками, на самом деле, задача не очень сложная. Прочитав эту статью, вы научитесь премудростям директив, и самостоятельно написать правила для файла robots.txt на своём сайте.

Для создания файла robots.txt используется определённый, но не сложный синтаксис. Используемых директив не много. Рассмотрим правила, структуру и синтаксис файла robots.txt пошагово и подробно.

Общие правила robots.txt

Во-первых, сам файл robots.txt должен иметь кодировку ANSI.

Во-вторых, нельзя использовать для написания правил никаких национальных алфавитов, возможна только латиница.

Структурно файл robots.txt может состоять из одного или нескольких блоков инструкций, отдельно для роботов разных поисковых систем. Каждый блок или секция имеют набор правил (директив) для индексации сайта той или иной поисковой системой.

В самих директивах, блоках правил и между ними не допускаются какие-либо лишние заголовки и символы.

Директивы и блоки правил разделяются переносом строки. Единственное допущение, это комментарии.

Комментирование в robots.txt

Для комментирования используется символ ‘#’. Если вы поставите в начале строки символ «решётки», то до конца строки всё содержимое игнорируется поисковыми роботами.

User-agent: *
Disallow: /css #пишем комментарий
#Пишем ещё один комментарий
Disallow: /img

Секции в файле robots.txt

При прочтении файла роботом, используется только секция адресованная роботу этой поисковой системы, то есть, если в секции, user-agent указано имя поисковой системы Яндекс, то его робот прочитает только адресованную ему секцию, игнорируя другие, в частности и секцию с директивой для всех роботов - User-agent:*.

Каждая из секций является самостоятельной. Секций может быть несколько, для роботов каждой или некоторых поисковых систем, так и одна универсальная, для всех роботов или роботов одной их систем. Если секция одна, то начинается она с первой строки файла и занимает все строки. Если секций несколько, то они должны разделяться пустой строкой, хотя бы одной.

Секция всегда начинается с директивы User-agent и содержит имя поисковой системы, для роботов которой предназначена, если это не универсальная секция для всех роботов. На практике это выглядит так:

User-agent:YandexBot
# юзер-агент для роботов системы Яндекс
User-agent: *
# юзер-агент для всех роботов

Перечислять несколько имён ботов запрещено. Для ботов каждой поисковой системы создаётся своя секция, свой отдельный блок правил. Если, в вашем случае, правила для всех роботов одинаковые, используйте одну универсальную, общую секцию.

Директивы, что это?

Директива - это команда или правило сообщающее поисковому роботу определённую информацию. Директива сообщает поисковому боту, как индексировать ваш сайт, какие каталоги не просматривать, где находится карта сайта в формате XML, какое имя домена является главным зеркалом и некоторые другие технические подробности.

Секция файла robots.txt состоит из отдельных команд,
директив. Общий синтаксис директив таков:

[Имя_директивы]:[необязательный пробел][значение][необязательный пробел]

Директива пишется в одну строку, без переносов. По принятым стандартам, между директивами в одной секции пропуск строки не допускается, то есть все директивы одной секции пишутся на каждой строке, без дополнительных пропусков строк.

Давайте опишем значения основных используемых директив.

Директива Disallow

Наиболее используемая директива в файле robots.txt, это «Disallow» - запрещающая. Директива «Disallow» запрещает индексацию указанного в ней пути. Это может быть отдельная страница, страницы, содержащие указанную «маску» в своём URL`е (пути), часть сайта, отдельная директория (папка) или сайт целиком.

«*» - звёздочка означает - «любое количество символов». То есть, путь /folder* одинаков по своему значению с «/folders», «/folder1», «/folder111», «/foldersssss» или «/folder». Роботы, при чтении правил, автоматически дописывают знак «*». В примере, приведённом ниже, обе директивы абсолютно равнозначны:

Disallow: /news
Disallow: /news*

«$» - знак доллара запрещает роботам при чтении директив автоматически дописывать символ «*» (звёздочка) в конце директивы. Другими словами, символ «$» означает конец строки сравнения. То есть, в нашем примере мы запрещаем индексацию папки «/folder», но не запрещаем в папках «/folder1», «/folder111» или «/foldersssss»:

User-agent: *
Disallow: /folder$

«#» - (шарп) знак комментария . Всё, что написано после этого значка, в одной с ним строке, игнорируется поисковыми системами.

Директива Allow

Директива ALLOW файла robots.txt противоположна по своему значению директиве DISSALOW, директива ALLOW разрешающая. В примере ниже показано, что мы запрещаем индексировать весь сайт кроме папки /folder:

User-agent: *
Allow: /folder
Disallow: /

Пример одновременного использования «Allow», «Disallow» и приоритетность

Не забывайте, о понимании приоритетности при запретах и разрешениях, при указании директив. Раньше приоритет указывался порядком объявления запретов и разрешений. Сейчас приоритет определяется указанием максимально существующего пути в пределах одного блока для робота поисковой системы (User-agent), в порядке увеличения длинны пути и месту указания директивы, чем длиннее путь, тем приоритетнее:

User-agent: *
Allow: /folders
Disallow: /folder

В приведённом примере выше разрешена индексация URL`ов начинающихся с «/folders», но запрещена в путях, которые имеют в своих URL`ах начало «/folder», «/folderssss» или «/folder2». В случае попадания одинакового пути под обе директивы «Allow» и «Disallow», предпочтение отдаётся директиве «Allow».

Пустое значение параметра в директивах «Allow» и «Disallow»

Встречаются ошибки WEB-мастеров, когда в файле robots.txt в директиве «Disallow»
забывают указать символ «/». Это является неправильным, ошибочным трактованием значений директив и их синтаксиса. В результате, запрещающая директива становится разрешающей: «Disallow:» абсолютно идентична «Allow: /». Правильный запрет на индексацию всего сайта выглядит так:

То же самое можно сказать и об «Allow:». Директива «Allow:» без символа «/» запрещает индексацию всего сайта, так же как и «Disallow: /».

Директива Sitemap

По всем канонам SEO-оптимизации, необходимо использовать карту сайта (SITEMAP) в формате XML и предоставлять её поисковым системам.

Несмотря на функциональность «кабинетов для WEB-мастеров» в поисковых системах, необходимо заявлять о присутствии sitemap.xml и в robots.txt с помощью директивы «SITEMAP ». Поисковые роботы при обходе вашего сайта увидят указание на файл sitemap.xml и будут обязательно использовать его при следующих обходах. Пример использования директивы sitemap в файле robots.txt:

User-agent: *
Sitemap: https://www.domainname.zone/sitemap.xml

Директива Host

Ещё одной важной директивой robots.txt является директива HOST .

Считается, что не все поисковые системы её распознают. Но «Яндекс» указывает, что читает эту директиву, а Яндекс в России является основным «поисковым кормильцем», поэтому не будем игнорировать директиву «host».

Эта директива говорит поисковым системам, какой домен является главным зеркалом. Все мы знаем, что сайт может иметь несколько адресов. В URL сайта может использоваться или не использоваться префикс WWW или сайт может иметь несколько доменных имён, например, domain.ru, domain.com, domen.ru, www.domen.ru. Вот именно в таких случаях мы и сообщаем поисковой системе в файле robots.txt с помощью директивы host, какое из этих имён является главным. Значением директивы является само имя главного зеркала. Приведём пример. Мы имеем несколько доменных имён (domain.ru, domain.com, domen.ru, www.domen.ru) и все они перенаправляют посетителей на сайт www.domen.ru, запись в файле robots.txt будет выглядеть так:

User-agent: *
Host: www.domen.ru

Если вы хотите, чтобы ваше главное зеркало было без префикса (WWW), то, соответственно, следует указать в директиве имя сайта без префикса.

Директива HOST решает проблему дублей страниц, с которой очень часто сталкиваются WEB-мастера и SEO-специалисты. Поэтому директиву HOST нужно использовать обязательно, если вы нацелены на русскоязычный сегмент и вам важно ранжирование вашего сайта в поисковой системе «Яндекс». Повторимся, на сегодня о чтении этой директивы заявляет только «Яндекс». Для указания главного зеркала в других поисковых системах необходимо воспользоваться настройками в кабинетах WEB-мастеров. Не забывайте, что имя главного зеркала должно быть указано корректно (правильность написания, соблюдение кодировки и синтаксиса файла robots.txt). В файле эта директива допускается только один раз. Если вы по ошибке укажете её несколько раз, то роботы учтут только первое вхождение.

Директива Crawl-delay

Данная директива является технической, командой поисковым роботам, как часто нужно посещать ваш сайт. Точнее, директива Crawl-delay указывает минимальный перерыв между посещениями вашего сайта роботами (краулерами поисковых систем). Зачем указывать это правило? Если роботы заходят к вам очень часто, а новая информация на сайте появляется намного реже, то со временем поисковые системы привыкнут к редкому изменению информации на вашем сайте и будут посещать вас значительно реже, чем хотелось бы вам. Это поисковый аргумент в пользу использования директивы «Crawl-delay». Теперь технический аргумент. Слишком частое посещение вашего сайта роботами создаёт дополнительную нагрузку на сервер, которая вам совсем не нужна. Значением директивы лучше указывать целое число, но сейчас некоторые роботы научились читать и дробные числа. Указывается время в секундах, например:

User-agent: Yandex
Crawl-delay: 5.5

Директива Clean-param

Необязательная директива «Clean-param» указывает поисковым роботам параметры адресов сайта, которые не нужно индексировать и следует воспринимать, как одинаковые URL. Например, у вас одни и те же страницы выводятся по разным адресам, отличающимся одним или несколькими параметрами:

www.domain.zone/folder/page/
www.domain.zone/index.php?folder=folder&page=page1/
www.domain.zone/ index.php?folder=1&page=1

Поисковые роботы будут сканировать все подобные страницы и заметят, что страницы одинаковые, содержат один и тот же контент. Во-первых, это создаст путаницу в структуре сайта при индексации. Во-вторых, дополнительная нагрузка на сервер возрастёт. В третьих, скорость сканирования заметно упадёт. Чтобы избежать этих неприятностей и используется директива «Clean-param». Синтаксис следующий:

Clean-param: param1[¶m2¶m3¶m4& ... ¶m*N] [Путь]

Директиву «Clean-param», как и «Host» читают не все поисковые системы. Но Яндекс её понимает.

Ошибки, которые часто встречаются в robots.txt

Файл robots.txt находится не в корне сайта

Файл robots. txt должен размещаться в корне сайта , только в корневой директории . Все остальные файлы с таким же именем, но находящиеся в других папках (директориях) игнорируются поисковыми системами.

Ошибка в имени файла robots.txt

Имя файла пишется маленькими буквами (нижний регистр) и должен называться robots. txt . Все остальные варианты считаются ошибочными и поисковые стсемы будут вам сообщать об отсутствии файла. Частые ошибки выглядят так:

ROBOTS.txt
Robots.txt
robot.txt

Использование недопустимых символов в robot.txt

Файл robots.txt должен быть в кодировке ANSI и содержать только латиницу. Написание директив и их значений любыми другими национальными символами недопустимо, за исключением содержимого комментариев.

Ошибки синтаксиса robots.txt

Старайтесь строго соблюдать правила синтаксиса в файле robots.txt. Синтаксические ошибки могут привести к игнорированию содержимого всего файла поисковыми системами.

Перечисление нескольких роботов одной строкой в директиве User-agent

Ошибка, часто допускаемая начинающими WEB-мастерами, скорее из-за собственной лени, не разбивать файл robots.txt на секции, а объединять команды для нескольких поисковых систем в одной секции, например:

User-agent: Yandex, Googlebot, Bing

Для каждой поисковой системы необходимо создавать свою отдельную секцию, с учётом тех директив, которые читает эта поисковая система. Исключением, в данном случае, является единая секция для всех поисковых систем:

User-agent с пустым значением

Директива User-agent не может иметь пустое значение. Пустыми могут быть только «Allow» и «Disallow» и то с учётом того, что меняют своё значение. Указание директивы User-agent с пустым значением является грубейшей ошибкой.

Нескольких значений в директиве Disallow

Реже встречающаяся ошибка, но, тем не менее, периодически её можно видеть на сайтах, это указание нескольких значений в директивах Allow и Disallow, например:

Disallow: /folder1 /folder2 /folder3

Disallow: /folder1
Disallow: /folder2
Disallow: /folder3

Несоблюдение приоритетов директив в robots.txt

Эта ошибка уже описывалась выше, но для закрепления материала повторимся. Раньше приоритет определялся порядком указания директив. На сегодняшний день правила изменились, приоритет уточняется по длине строки. Если в файле будут присутствовать две взаимоисключающих директивы, Allow и Disallow с одинаковым содержимым, то приоритет будет иметь Allow.

Поисковые системы и robots.txt

Директивы в файле robots.txt носят рекомендательный характер для поисковых систем. Это значит, что правила прочтения могут периодически меняться или дополняться. Так же помните, что каждая поисковая система по-своему обрабатывает директивы файла. И не все директивы каждая из поисковых систем читает. Например, директиву «Host» сегодня читает только Яндекс. При этом Яндекс не гарантирует, что имя домена указанное, как главное зеркало в директиве Host обязательно будет назначено главным, но утверждает, что приоритет указанному имени в директиве будет отдаваться.

Если у вас небольшой набор правил, то можно создать единую секцию для всех роботов. В противном случае, не ленитесь, создайте отдельные секции для каждой интересующей вас поисковой системы. В особенности это относится к запрещениям, если вы не хотите, чтобы какие-то определённые страницы попали в поиск.