Файл robots.txt - зачем он нужен?




Многие спрашивают: зачем на сайте нужен файл robots.txt? Этот файл применяется для того, чтобы ЗАПРЕТИТЬ одному, нескольким или даже всем поисковикам индексировать ту или иную страницу вашего сайта. Например, вашу домашнюю страничку. Зачем индексировать отдельно страничку о вас любимом, если для пользователей интернета она не представляет никакого интереса.



Или, напрмер, Вы создаете различные версии одной и той же страницы. По существу, информация на всех страничках одинаковая и различается только ее интерфейсом или несущественными добавлениями. Поисковики, как правило, определяют это как спам, со всеми вытекающими отсюда последствиями. Ваш сайт попросту будет ЗАБАНЕН!
Вам это надо?


Чтобы избежать этих последствий и существует файл robots.txt. Что собою представляет этот файл? Это обыкновенный текстовый файл, созданный в любом Блокноте, с определенными инструкциями поисковым роботам и имеющий название robots.txt. Именно такое название, а не какое-нибудь другое.


Теперь перейдем непосредственно к инструкциям.


Внимание!

Ничего сложного в этом нет. Нужно только внимательно писать эти инструкции. Ведь одно, даже незначительное, отступление от правильного написания инструкции приведет к игнорированию этой записи поисковыми роботами. И Вы будете неприятно удивлены, обнаружив в интернете страничку с информацией, которую Вы не хотели бы распространять для общего обозрения.


Итак. Для того, чтобы разрешить всем поисковикам индексировать ваш сайт целиком, пишите следующую инструкцию:

User-agent: *
Disallow:


Запретить весь сайт для индексации всеми роботами:

User-agent: *
Disallow: /


Как видите, различие между разрешить и запретить состоит в том, что во втором случае используется прямой слэш.


Давайте поближе познакомимся с самими инструкциями.

  • Инструкция User-agent: служит для указания имени робота, к которому относится данная инструкция. В данном случае у меня стоит звездочка (*), которая означает, что данная инструкция относится ко ВСЕМ поисковым роботам.
  • В инструкции Disallow: перечисляются имена файлов, которые необходимо закрыть от индексирования. У меня, в первом случае, пустая строка, что значит нет запретов на индексирование. Во втором случае у меня стоит прямой слэш, что означает запрет на индексацию всего сайта целиком.


Внимание!

В инструкции Disallow: нельзя использовать символы подстановки типа звездочки, знака вопроса и других.


А если необходимо разрешить индексирование сайта одному поисковику и запретить всем остальным? No problem. Пишем следующее:

User-agent: Yandex
Disallow:

User-agent: *
Disallow: /


Данные инструкции означают, что Яндексу разрешено индексировать весь сайт целиком, а всем остальным роботам запрещено.


А сейчас введем запрет всем роботам на индексирование отдельного файла, расположенного в корневой директории:

User-agent: *
Disallow: /file.html


Теперь запретим, к примеру, роботу Google индесировать несколько файлов, расположенных в каталогах и разрешим индексировать все файлы сайта всем остальным:

User-agent: Googlebot
Disallow: /content/file1.html
Disallow: /content/file2.html
Disallow: /image/

User-agent: *
Disallow:


В этой инструкции мы запрещаем поисковому роботу Google индексацию файлов file1.html и file2.html, расположенных в каталоге content и также запрещаем индексацию всего каталога image. Всем остальным роботам разрешено индексировать весь сайт.


Если необходимо разрешить к индексации один-два файла из каталога, а остальные закрыть, то для этого существуют два пути: либо перечислить в инструкции Disallow: все файлы, которые необходимо закрыть от индексации, что считается дурным тоном, либо вынести все нужные файлы в отдельный подкаталог и закрыть его от индексации. Этот вариант считается хорошим стилем.


Иногда возникает необходимость добавить к инструкциям свои комментарии. Делается это с применением символа решетки (#). Комментарии вставляются после полной записи. Например так:

User-agent: *
Disallow:
#Разрешить всем роботам индексировать весь мой сайт

User-agent: Googlebot
Disallow: /
#Запретить роботу Googlebot индексировать весь мой сайт


Дальше мы разберем некоторые ошибки, возникающие при написании инструкций:


  • Использование в Disallow символов подстановки.

    Нельзя использовать следующее написание:

    User-agent: *
    Disallow: file*.html
    

  • Пустая строка в User-agent

    Неправильно:

    User-agent: 
    Disallow: /file.html
    

    Правильно:

    User-agent: *
    Disallow: /file.html
    

  • Использование файла robot.txt вместо robots.txt

  • Имя файла содержит заглавные буквы

    Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT.

  • Указание нескольких каталогов в одной инструкции Disallow

    Неправильно:

    Disallow: /css/ /cgi-bin/ /images/
    

    Правильно:

    Disallow: /css/
    Disallow: /cgi-bin/
    Disallow: /images/
    

  • Перепутанные инструкции

    Неправильно:

    User-agent: /
    Disallow: Yandex
    

    Правильно:

    User-agent: Yandex
    Disallow: /
    

  • Отсутствие слэшей при указании директории

    Неправильно:

    User-agent: Yandex
    Disallow: images
    

    Правильно:

    User-agent: Yandex
    Disallow: /images/
    

Внимание!

На сайте может быть только один файл robots.txt и расположен он должен быть в корневом каталоге сайта. И запомните: файл robots.txt ничего не разрешает, только запрещает!



После создания вашего файла robots.txt, Вы можете проверить его с помощью бесплатного сервиса на: http://www.tardis.ed.ac.uk/~sxw/robots/check/. Правда сервис на чуждом нам языке, но подсуетившись с помощью какого либо переводчика, можно понять что к чему.


Не пренебрегайте файлом robots.txt.


Реклама


Hosted by uCoz