Добрый день коллеги! В одной из предыдущих статей я вещал о самостоятельной seo оптимизации сайта и говорил, что это очень большая тема и супер подробно каждый пункт в рамках 1-2 двух статей раскрыть в полной мере невозможно.
Помните такое? Так вот, сегодня я хочу раскрыть по подробнее один из самых важных пунктов внутренней оптимизации веб-ресурса. Сегодня будем говорить о файле robots.txt для сайта WordPress. Прочитав статью от начала и до конца, вы узнаете:
Содержание:
1. Что такое файл robots.txt и для чего он нужен?
2. Где находится файл robots.txt и как его создать?
3. 8 популярных ошибок, которые допускают начинающие веб-мастера
4. Правильный и проверенный robots.txt для сайта WordPress
5. Описание значения строк файла robots.txt
Кстати, для тех товарищей кто не хочет разбираться в этом файле со странным названием, а желает просто взять готовый и проверенный вариант для своего интернет-проекта, я дам ссылку на скачивание своего рабочего файла robots.txt для сайта WordPress.
Я использую его с 2013 года на всех своих веб-ресурсах созданных на WP и за все время он отлично себя зарекомендовал. Естественно я стараюсь быть в тренде и при необходимости вношу в него правки с учетом нововведений поисковых систем и seo.
Свой файл я собирал очень долго, брал шаблоны с успешных сайтов, которые находятся в ТОПе, скачивал у блогеров, просил у ребят на seo форумах, а потом все это анализировал, взял самое лучшее из каждого и вот он простой, эффективный, рабочий роботс. Итак, давайте начнём с определения.
Что такое файл robots.txt и для чего он нужен?
Robots.txt – это системный, внутренний файл сайта, созданный в обычном текстовом блокноте, который представляет из себя пошаговую инструкцию для поисковых машин, которые ежедневно посещают и индексирует веб-ресурс.
Каждый web-мастер должен знать значение этого важного элемента внутренней оптимизации и уметь его грамотно настраивать. Наличие данного файла обязательное условия для правильного и качественного seo.
Ещё такой нюанс, если у вашего сайта имеется несколько поддоменов, то у каждого из них, в корневом каталоге на сервере должен быть свой роботс. Кстати, данный файл является дополнением к Sitemaps (карта сайта для ПС), дальше в статье вы узнаете об этом более подробно.
У каждого сайта есть разделы, которые можно индексировать и которые нельзя. В роботсе, как раз таки можно диктовать условия для поисковых роботов, например, сказать им, чтобы они индексировали все страницы сайта с полезным и продающим контентом, но не притрагивались к папкам движка, к системным файлам, к страницам с данными аккаунтов пользователей и т.д.
Ещё в нем можно дать команду поисковой машине, соблюдать определенный промежуток времени между загрузкой файлов и документов с сервера во время индексирования, а также он прекрасно решает проблему наличия дублей (копий контента вашего сайта).
А сейчас, я хочу с вами поделиться небольшим секретом, о котором, кстати, знают не все веб-мастера. Если вы создали и настроили robots.txt, то не думайте, что вы властелин поисковых роботов, знайте и помните, что он позволяет лишь частично управлять индексированием сайта.
Наш отечественный поисковый гигант Яндекс строго и ответственно соблюдает прописанные инструкции и правила, а вот американский товарищ Гугл, не добросовестно к этому относится и в легкую может проиндексировать страницы и разделы на которых стоит запрет, а потом ещё и добавить в поисковую выдачу.
Где находится файл robots.txt и как его создать?
Этот товарищ располагается в корневом каталоге сайта, для наглядности смотрите ниже картинку со скриншотом моего каталога на сервере. Если вы устанавливаете WordPress на хостинге через функцию «Установка приложений», об этом я рассказывал в статье «Как установить WordPress на хостинг? Полное руководство по установке!», то файл роботс создается автоматически по умолчанию в стандартном, не доработанном виде.
Создается он на рабочем столе, с помощью обычного, текстового блокнота, который имеет расширение файла .txt. Кстати, рекомендую использовать прогу Notepad++ для редактирования и создания текстовых файлов, очень удобно.
Закачать на сервер его можно, например, с помощью ftp используя программы Filezilla или Total Commander. Если вы хотите посмотреть, как выглядит данный файл на каком-то сайте или на своем, то наберите в браузере адрес http://имя_сайта/robots.txt.
8 популярных ошибок, которые допускают начинающие веб-мастера
1.Путаница в написании правил. Пожалуй это самая популярная ошибка в рунете.
Неправильный вариант:
User-agent: /
Disallow: Googlebot
Правильный вариант:
User-agent: Googlebot
Disallow: /
2. Написание целого списка папок в одном правиле. Некоторые ребята умудряются сделать запрет индексации папок в одной строчке.
Неправильный вариант:
Disallow: /wp-admin /wp-login.php /xmlrpc.php /wp-includes
Правильный вариант:
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /xmlrpc.php
3. Имя файла роботс большими буквами. Здесь я думаю понятно, всегда пишем название только маленькими буквами.
Неправильный вариант:
Robots.txt
ROBOTS.TXT
Правильный вариант:
robots.txt
4. Написание пустой строки в директиве User-agent
Неправильный вариант:
User-agent:
Disallow:
Правильный вариант:
User-agent: *
Disallow:
5. Неправильно написанная ссылка в правиле «Host». Нужно писать линк без указания протокола http:// и без слеша на конце /
Неправильный вариант:
User-agent: Yandex
Disallow: /wp-content/plugins
Host: http://www.ivan-maslov.ru/
Правильный вариант:
User-agent: Yandex
Disallow: /wp-content/plugins
Host: www.ivan-maslov.ru
6. Написание длинной колбасы с перечислением каждого файла. Чтобы этого не случилось, просто закрываем папку от индексации целиком.
Неправильный вариант:
User-agent: Yandex
Disallow: /Brend/Armani.html
Disallow: /Brend/Chanel.html
Disallow: /Tur/Thailand.html
Disallow: /Tur/Vietnam.html
Disallow: /Tur/Egypt.html
Правильный вариант:
User-agent: Yandex
Disallow: /Brend/
Disallow: /Tur/
7. Отсутствие в роботсе правила Disallow. По общепринятому стандарту поисковых систем, данная инструкция является обязательной, если вы не собираетесь ничего запрещать, тогда просто оставьте её пустой. Ок?
Неправильный вариант:
User-agent: Googlebot
Host: www.ivan-maslov.ru
Правильный вариант:
User-agent: Googlebot
Disallow:
Host: www.ivan-maslov.ru
8. Не указывают слеши в каталогах
Неправильный вариант:
User-agent: Googlebot
Disallow: ivan
Правильный вариант:
User-agent: Googlebot
Disallow: /ivan/
Правильный и проверенный robots.txt для сайта WordPress
А сейчас, я предлагаю вам ознакомится содержанием кода файла роботс, разобраться в каждой его директиве. а затем скачать готовый вариант.
User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /?s=* Disallow: /*?* Disallow: /search* Disallow: */trackback/ Disallow: */*/trackback Disallow: */feed Disallow: */*/feed/*/ Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: /cgi-bin Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /tag Disallow: /category/*/* Allow: /wp-content/uploads Crawl-delay: 5 Host: ivan-maslov.ru Sitemap: http:///sitemap.xml Sitemap: http:///sitemap.xml.gz User-agent: Googlebot Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /?s=* Disallow: /*?* Disallow: /search* Disallow: */trackback/ Disallow: */*/trackback Disallow: */feed Disallow: */*/feed/*/ Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: /cgi-bin Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /tag Disallow: /category/*/* Allow: /wp-content/uploads User-agent: Mail.Ru Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /?s=* Disallow: /*?* Disallow: /search* Disallow: */trackback/ Disallow: */*/trackback Disallow: */feed Disallow: */*/feed/*/ Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: /cgi-bin Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /tag Disallow: /category/*/* Allow: /wp-content/uploads User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /?s=* Disallow: /*?* Disallow: /search* Disallow: */trackback/ Disallow: */*/trackback Disallow: */feed Disallow: */*/feed/*/ Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: /cgi-bin Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /tag Disallow: /category/*/* Allow: /wp-content/uploads User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/ User-agent: Mediapartners-Google Disallow: User-Agent: YaDirectBot Disallow:
>> Скачать файл robots.txt для сайта WordPress
Описание значения строк файла robots.txt:
- «User-agent: *» — правила, прописанные ниже будут относится ко всем поисковым системам и их роботам, кроме Яндекса и Google
- «User-agent: Yandex» — правила, прописанные ниже будут относится к поисковому гиганту Яндекс и всем его поисковым роботам (ПР)
- «User-agent: Googlebot» — правила, прописанные ниже будут относится к поисковому гиганту Гугл и всем его ПР
- «User-agent: Mail.Ru» — правила, прописанные ниже будут относится к поисковому гиганту Майл ру и всем его ПР
- «Disallow:» — условие запрещающее индексирование
- «Allow:» — условие разрешающее индексирование
- «*» — звездочка означает допущение абсолютно любой и даже пустой последовательности символов
- «$» — дает возможность делать исключение для определенных файлов и каталогов в правиле
- «Host: vas-domen.ru» — данное правило используется только стариком Яндексом и указывает ему главное зеркало вашего сайта (www.sait.ru или sait.ru)
- «User-agent: Googlebot-Image» — правила, прописанные ниже будут относится конкретно к поисковому боту Гугла, который занимается индексированием изображений
- «User-agent: YandexImages» — правила, прописанные ниже будут относится конкретно к поисковому боту Яндекса, который занимается индексированием изображений
- «User-agent: Mediapartners-Google» — правила, прописанные ниже будут относится конкретно к поисковому боту Гугла, который занимается индексированием страниц и объявлений с рекламой AdSense. Напомню, что мы прописали там «Disallow:» это позволит подбирать более релевантные объявления и избежать ошибок индексирования. Если вы в будущем собираетесь размещать рекламу от Гугла или уже размещаете, то прописывайте такие правила сразу, чтобы на верочку было все ок, а то потом забудете.
- «User-Agent: YaDirectBot» — правила, прописанные ниже будут относится конкретно к поисковому боту Яндекса, который занимается индексированием страниц и объявлений с рекламой Яндекс Директ. В остальном все тоже самое, что писал в предыдущем пункте.
- «Sitemap:» — правило, в котором указывается ссылка на местоположение файла с картой сайта sitemap.xml.
- «Crawl-delay:» — полезное правило, которое снижает нагрузку на сервер, когда ПР очень часто заходят в гости к вашему сайту, здесь мы задаем время в секундах и говорим этим неугомонным товарищам, чтобы сканировали наш веб-ресурс не чаще, чем 1 раз в 5 секунд.
Ну вот мы и рассмотрели значение всех строк, если этой информации вам мало, то дополнительно рекомендую почитать справку Яндекса. Кстати, скачать полностью готовый файл robots.txt для сайта WordPress, можно — здесь. Не забудьте поменять в нём строчки:
ссылку на Sitemap
главное зеркало web-ресурса в директиве «Host:»
После того, как вы сделали все настройки и загрузили свой роботс в корневую папку сайта, обязательно проверьте его на ошибки, если вы скачали мой вариант, то можете не проверять, я уже это сделал, там всё чётко
Вот на всякий случай парочка классных сервисов для анализа и проверки на ошибки файла robots.txt:
Проверяем robots.txt в инструментах Яндекс Вебмастер: http://webmaster.yandex.ru/robots.xml
Проверяем robots.txt в интсрументах Гугла: https://www.google.com/webmasters/tools/robots-testing-tool?hl=ru
Ну и напоследок, хочу обратить ваше внимание на то, что файл robots.txt для сайта WordPress важное звено в seo оптимизации, между вашим web-ресурсом и поисковыми роботами. С его помощью, вы можете влиять на индексацию сайта. Друзья, помните об этом и используйте свой роботс грамотно, ведь в seo не бывает мелочей.
Остались вопросы — пишите их в комментах, постараюсь ответить в ближайшее время. А какие инструкции используете вы в своем файле robots.txt из выше перечисленных?
Если вам понравилась статья, рекомендуйте её своим друзьям и подписывайтесь на рассылку блога. Увидимся в следующих постах, до связи 😉
С уважением, Иван Маслов
толковый файл robots.txt, благодарю
рад, что вам понравился)
Длинный, однако, у Вас получился файл robots.txt — очень длинный, мне кажется...
Думается, это, например:
Disallow: /tag
Disallow: /category/*/*
правильнее закрыть в мета-robots: noindex/follow
В этой длине собраны все важные параметры, этот файл проверенный годами его даже одобрил один руководитель известной компании занимающейся seo продвижением сайтов.