Robots txt - как правильно настроить файл, проверка

Что такое robots.txt

В данном файле содержится набор инструкций, «в соответствии с которыми функционируют поисковые боты. Находится файл в корневой папке. Такое расположение нужно для того, чтобы индексация страницы ботами началась именно с чтения правил, устанавливаемых файлом.

Получается, что роботс дает указания, какие директории ресурса могут индексироваться.

Какие функции выполняет robots.txt

При нахождении новой страницы робот поисковой системы переходит по всем ссылкам, обозначенным на ней, в результате чего они оказываются в базе. Через определенное время зафиксированные страницы добавляются в списки поисковой выдачи. Примечательно, что это касается абсолютно всех замеченных страниц, даже тех, которые ориентированы не на посетителей ресурса, а необходимы для обеспечения его корректной работы.

Чтобы боты не индексировали ненужные URL, программисты должны создать и корректно настроить файл для них и поместить его в «правильную» (корневую) директорию сайта, к примеру, http://site.ru/robots.txt.

Если принять во внимание тот факт, что присутствие файла никак не влияет на ранжирование, на многих сайтах он просто отсутствует. Такой подход нельзя назвать корректным, так как robots дает целый набор преимуществ:

Возможность запрета полного или частичного индексирования сайта, ограничения круга ботов, имеющих право на выполнение этого действия. Тотальный запрет – хорошее решение в ситуации, когда сайт находится на стадии восстановления, модернизации или создания.
Защита от спам-ботов. Используются для того, чтобы сканировать страницы на предмет присутствия на них адресов электронной почты. В дальнейшем эти адреса используются для рассылок писем рекламного характера.
Скрытие определенных разделов ресурса, ориентированных не на поисковые машины, а на конкретных пользователей с расширенными полномочиями. В данных разделах могут содержаться личные сведения и другая информация подобного характера.

Когда требуется настройка robots.txt

Соответствующие операции проводятся непосредственно на этапе разработки ресурса. Пока проект не завершен, программистам лучше «спрятать» его от вездесущих поисковых роботов. Для чего это делается? Ответ прост – чтобы пустые страницы, разделы, которые еще не доделаны до конца, не оказывались в списках поисковой выдачи. Никакой ценности для клиента они не представляют, а потому могут испортить общее впечатление о компании.

Некоторые программисты, впрочем, даже после запуска сайта забывают о том, что его нужно активировать для индексации:

User-agent: *

Disallow: /

Результат такого безответственного отношения печален. Трафик не увеличивается, кроме того ресурс не может оказаться на высоких позициях в списках поисковой выдачи, так как поисковики его попросту не видят. Человеку без опыта сложно понять, что дело в данной ситуации заключается в маленьком файлике – он не корректируется и не перенастраивается, из-за чего проблема затягивается на месяцы. При этом сайт выглядит привлекательно, наполнен интересной актуальной информацией, но трафика и обращений нет, и прибыли он не приносит.

Наша компания учитывает этот момент. Если в фирму обращаются за продвижением какого-либо проекта, то сначала мы тщательно проверяем, создан ли в корне индексный текстовый файл и корректно ли выполнены его настройки.

Как правильно настроить robots.txt

Чтобы держать поведение поисковых ботов под контролем, используется команда User-agent. Рассмотрим наиболее частые примеры ее применения, своеобразные «обращения» к ботам, выполняющим поисковые функции:

User-agent: * #

- команда, находящаяся за строкой, распространяется на всех поисковых ботов.

User-agent: YandexBot #

- версия, ориентированная на роботов Яндекса.

User-agent: Googlebot #

- аналог для Google;

User-agent: *

Disallow: / #

- запрещает индексацию всем поисковым роботам.

Disallow

– это общая команда, обозначающая запрет индексации для всех ботов.

User-agent: *

Disallow: /admin/ #

- команда не дает ботам работать с папкой, доступ к которой имеют только администраторы, директории /admin/.

Allow, в свою очередь, является командой разрешения индексации.

User-agent: Googlebot

Disallow: /strawberry/ #

- команда, запрещающая конкретному боту (в данном случае речь идет о Google) индексировать папку /strawberry/. А вот эта как раз разрешает индексацию - Allow: /strawberry/images/.

User-agent: YandexBot

Allow: / #

- команда, благодаря которой поисковый бот Яндекса может индексировать все страницы ресурса.

Crawl-delay – определение временного промежутка, который робот должен выдержать в процессе загрузки страниц. Он нужен для того, чтобы исключить чрезмерную нагрузку на сервер. Впрочем, потребность в данной команде все меньше, так как сейчас многие поисковики по умолчанию выдерживают интервал в 1-2 секунды.

User-agent: *

Crawl-delay: 10

Sitemap – указание карты ресурса. Указывать обязательно (как и создавать). Прописывается строго в конце robots.txt. Адрес и непосредственно путь, ведущий к карте, корректируется в соответствии с конкретным ресурсом. Важный момент – если число страниц сайта превышает 50 тысяч, то создается целый ряд карт, все они прописываются в отдельном файле Sitemap. В роботс ссылка должна выглядеть так: Sitemap: http://site.ru/sitemap.xml.

Отличие настройки robots.txt для YandexBot и GoogleBot

Настройка robots.txt для поиска YandexBot и GoogleBot

Настройка robots.txt для Яндекс

Чтобы разобраться в директивах, ориентированных на Яндекс, рассмотрим стандартный вариант роботс для WordPress.

User-agent: Yandex

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /wp-trackback

Disallow: /wp-feed

Disallow: */trackback

Disallow: */feed

Правильность можно определить посредством сервиса www.webmaster.yandex.ru/tools/robotstxt/.

Настройка robots.txt для Google

В целом, здесь используются идентичные, но есть пара нюансов.

User-agent: Googlebot

Allow: *.css

Allow: *.js

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /wp-trackback

Disallow: /wp-feed

Disallow: */trackback

Disallow: */feed

На примере выше видно, что появилась пара директив, позволяющих индексировать скрипты JS и таблицы CSS. Это связано с официальными рекомендациями Google. Конечно, в поиске не окажется ни скриптов, ни таблиц, но директивы дают возможность роботам более точно отображать сайт в выдаче. Корректность настроек проверяется сервисом GoogleWebmasterTools - www.google.com/webmasters/tools/robots-testing-tool.

Что еще стоит закрывать в роботсе?

Страницы поиска. Да, с этим утверждением можно поспорить, так как в некоторых ситуациях сайт предусматривает собственный внутренний поисковый алгоритм, создающий релевантные разделы. Впрочем, этот случай – редкость, как правило, открытость поисковых результатов приводит к появлению огромных объемов дублей. Отсюда и единственно верное решение – полное закрытие.
Корзина + страницы, использующиеся при формировании и подтверждении покупки. Этому совету должны следовать интернет-магазины и прочие ресурсы коммерческого толка, имеющие специальную форму для оформления заказа. Индексация разделов подобного рода недопустима.
Страницы пагинации. Как правило, на них автоматически формируются идентичные метатеги. Вдобавок к этому, на них располагается динамическая информация, из-за чего появляются дубли. Лучше сразу закрыть пагинацию от индексации.
Фильтры и модули сравнения товаров. Как и в случае с корзиной, это правило актуально для интернет-магазинов и сайтов-каталогов.
Страницы, на которых размещены формы входа на сайт и регистрации. Сведения, которые вводит пользователь, носят конфиденциальный характер, а потому индексация этих страниц недопустима. Поисковая система Google оценит подобную заботу о посетителях.
Системные директории и отдельные файлы. Каждый ресурс сформирован множеством скриптов, таблиц CSS, административной частью. К этим данных роботов также лучше не допускать.

Заметим, что для выполнения некоторых из вышеописанных пунктов можно использовать и другие инструменты, например, rel=canonical, про который позже мы расскажем в отдельной статье.

Полезное видео про robots.txt

Для SEO марафона от студии DIUS мы подготовили видеоролик, в котором рассказываем про то, каким должен быть файл Robots.txt:

Как правильно настроить robots.txt

Что такое robots.txt

Какие функции выполняет robots.txt

Когда требуется настройка robots.txt

Как правильно настроить robots.txt

Отличие настройки robots.txt для YandexBot и GoogleBot

Настройка robots.txt для Яндекс

Настройка robots.txt для Google

Что еще стоит закрывать в роботсе?

Полезное видео про robots.txt

Обсудим сотрудничество?

Комментарии

Добавить комментарий

Провести бесплатный SEO-аудит вашего сайта?

Провести бесплатный SEO-аудит вашего сайта?