Главная / Раскрутка и SEO оптимизация / Robots.txt для сайта WordPress! Топ 8 популярных ошибок!

Robots.txt для сайта WordPress! Топ 8 популярных ошибок!

Robots.txt для сайта WordPress

Добрый день коллеги! В одной из предыдущих статей я вещал о самостоятельной seo оптимизации сайта и говорил, что это очень большая тема и супер подробно каждый пункт в рамках 1-2 двух статей раскрыть в полной мере невозможно.

Помните такое? Так вот, сегодня я хочу раскрыть по подробнее один из самых важных пунктов внутренней оптимизации веб-ресурса. Сегодня будем говорить о файле robots.txt для сайта WordPress. Прочитав статью от начала и до конца, вы узнаете:

Содержание:

1. Что такое файл robots.txt и для чего он нужен?
2. Где находится файл robots.txt и как его создать?
3. 8 популярных ошибок, которые допускают начинающие веб-мастера
4. Правильный и проверенный robots.txt для сайта WordPress
5. Описание значения строк файла robots.txt

Кстати, для тех товарищей кто не хочет разбираться в этом файле со странным названием, а желает просто взять готовый и проверенный вариант для своего интернет-проекта, я дам ссылку на скачивание своего рабочего файла robots.txt для сайта WordPress.

Я использую его с 2013 года на всех своих веб-ресурсах созданных на WP и за все время он отлично себя зарекомендовал. Естественно я стараюсь быть в тренде и при необходимости вношу в него правки с учетом нововведений поисковых систем и seo.

Свой файл я собирал очень долго, брал шаблоны с успешных сайтов, которые находятся в ТОПе, скачивал у блогеров, просил у ребят на seo форумах, а потом все это анализировал, взял самое лучшее из каждого и вот он простой, эффективный, рабочий роботс. Итак, давайте начнём с определения.

Что такое файл robots.txt и для чего он нужен?

Robots.txt – это системный, внутренний файл сайта, созданный в обычном текстовом блокноте, который представляет из себя пошаговую инструкцию для поисковых машин, которые ежедневно посещают и индексирует веб-ресурс.

Каждый web-мастер должен знать значение этого важного элемента внутренней оптимизации и уметь его грамотно настраивать. Наличие данного файла обязательное условия для правильного и качественного seo.

Что такое файл robots.txt для сайта WordPress

Ещё такой нюанс, если у вашего сайта имеется несколько поддоменов, то у каждого из них, в корневом каталоге на сервере должен быть свой роботс. Кстати, данный файл является дополнением к Sitemaps (карта сайта для ПС), дальше в статье вы узнаете об этом более подробно.

У каждого сайта есть разделы, которые можно индексировать и которые нельзя. В роботсе, как раз таки можно диктовать условия для поисковых роботов, например, сказать им, чтобы они индексировали все страницы сайта с полезным и продающим контентом, но не притрагивались к папкам движка, к системным файлам, к страницам с данными аккаунтов пользователей и т.д.

Ещё в нем можно дать команду поисковой машине, соблюдать определенный промежуток времени между загрузкой файлов и документов с сервера во время индексирования, а также он прекрасно решает проблему наличия дублей (копий контента вашего сайта).

А сейчас, я хочу с вами поделиться небольшим секретом, о котором, кстати, знают не все веб-мастера. Если вы создали и настроили robots.txt, то не думайте, что вы властелин поисковых роботов, знайте и помните, что он позволяет лишь частично управлять индексированием сайта.

Наш отечественный поисковый гигант Яндекс строго и ответственно соблюдает прописанные инструкции и правила, а вот американский товарищ Гугл, не добросовестно к этому относится и в легкую может проиндексировать страницы и разделы на которых стоит запрет, а потом ещё и добавить в поисковую выдачу.

Где находится файл robots.txt и как его создать?

Этот товарищ располагается в корневом каталоге сайта, для наглядности смотрите ниже картинку со скриншотом моего каталога на сервере. Если вы устанавливаете WordPress на хостинге через функцию «Установка приложений», об этом я рассказывал в статье «Как установить WordPress на хостинг? Полное руководство по установке!», то файл роботс создается автоматически по умолчанию в стандартном, не доработанном виде.

Где находится файл robots.txt

Создается он на рабочем столе, с помощью обычного, текстового блокнота, который имеет расширение файла .txt. Кстати, рекомендую использовать прогу Notepad++ для редактирования и создания текстовых файлов, очень удобно.

Закачать на сервер его можно, например, с помощью ftp используя программы Filezilla или Total Commander. Если вы хотите посмотреть, как выглядит данный файл на каком-то сайте или на своем, то наберите в браузере адрес http://имя_сайта/robots.txt.

8 популярных ошибок, которые допускают начинающие веб-мастера

1.Путаница в написании правил. Пожалуй это самая популярная ошибка в рунете.

Неправильный вариант:
User-agent: /
Disallow: Googlebot

Правильный вариант:
User-agent: Googlebot
Disallow: /

2. Написание целого списка папок в одном правиле. Некоторые ребята умудряются сделать запрет индексации папок в одной строчке.

Неправильный вариант:
Disallow: /wp-admin /wp-login.php /xmlrpc.php /wp-includes

Правильный вариант:
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /xmlrpc.php

3. Имя файла роботс большими буквами. Здесь я думаю понятно, всегда пишем название только маленькими буквами.

Неправильный вариант:
Robots.txt
ROBOTS.TXT

Правильный вариант:
robots.txt

4. Написание пустой строки в директиве User-agent

Неправильный вариант:
User-agent:
Disallow:

Правильный вариант:
User-agent: *
Disallow:

5. Неправильно написанная ссылка в правиле «Host». Нужно писать линк без указания протокола http:// и без слеша на конце /

Неправильный вариант:
User-agent: Yandex
Disallow: /wp-content/plugins
Host: http://www.ivan-maslov.ru/

Правильный вариант:
User-agent: Yandex
Disallow: /wp-content/plugins
Host: www.ivan-maslov.ru

6. Написание длинной колбасы с перечислением каждого файла. Чтобы этого не случилось, просто закрываем папку от индексации целиком.

Неправильный вариант:
User-agent: Yandex
Disallow: /Brend/Armani.html
Disallow: /Brend/Chanel.html
Disallow: /Tur/Thailand.html
Disallow: /Tur/Vietnam.html
Disallow: /Tur/Egypt.html

Правильный вариант:
User-agent: Yandex
Disallow: /Brend/
Disallow: /Tur/

7. Отсутствие в роботсе правила Disallow. По общепринятому стандарту поисковых систем, данная инструкция является обязательной, если вы не собираетесь ничего запрещать, тогда просто оставьте её пустой. Ок?

Неправильный вариант:
User-agent: Googlebot
Host: www.ivan-maslov.ru

Правильный вариант:
User-agent: Googlebot
Disallow:
Host: www.ivan-maslov.ru

8. Не указывают слеши в каталогах

Неправильный вариант:
User-agent: Googlebot
Disallow: ivan

Правильный вариант:
User-agent: Googlebot
Disallow: /ivan/

Правильный и проверенный robots.txt для сайта WordPress

А сейчас, я предлагаю вам ознакомится содержанием кода файла роботс, разобраться в каждой его директиве. а затем скачать готовый вариант.

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /?s=*
Disallow: /*?*
Disallow: /search*
Disallow: */trackback/
Disallow: */*/trackback
Disallow: */feed
Disallow: */*/feed/*/
Disallow: */comments/
Disallow: */comment
Disallow: */attachment/*
Disallow: */print/
Disallow: *?print=*
Disallow: */embed*
Disallow: /cgi-bin
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /tag
Disallow: /category/*/*
Allow: /wp-content/uploads
Crawl-delay: 5
Host: ivan-maslov.ru
Sitemap: http:///sitemap.xml
Sitemap: http:///sitemap.xml.gz

User-agent: Googlebot
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /?s=*
Disallow: /*?*
Disallow: /search*
Disallow: */trackback/
Disallow: */*/trackback
Disallow: */feed
Disallow: */*/feed/*/
Disallow: */comments/
Disallow: */comment
Disallow: */attachment/*
Disallow: */print/
Disallow: *?print=*
Disallow: */embed*
Disallow: /cgi-bin
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /tag
Disallow: /category/*/*
Allow: /wp-content/uploads

User-agent: Mail.Ru
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /?s=*
Disallow: /*?*
Disallow: /search*
Disallow: */trackback/
Disallow: */*/trackback
Disallow: */feed
Disallow: */*/feed/*/
Disallow: */comments/
Disallow: */comment
Disallow: */attachment/*
Disallow: */print/
Disallow: *?print=*
Disallow: */embed*
Disallow: /cgi-bin
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /tag
Disallow: /category/*/*
Allow: /wp-content/uploads

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /?s=*
Disallow: /*?*
Disallow: /search*
Disallow: */trackback/
Disallow: */*/trackback
Disallow: */feed
Disallow: */*/feed/*/
Disallow: */comments/
Disallow: */comment
Disallow: */attachment/*
Disallow: */print/
Disallow: *?print=*
Disallow: */embed*
Disallow: /cgi-bin
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /tag
Disallow: /category/*/*
Allow: /wp-content/uploads

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: YandexImages
Allow: /wp-content/uploads/

User-agent: Mediapartners-Google
Disallow:

User-Agent: YaDirectBot
Disallow:

>> Скачать файл robots.txt для сайта WordPress

Описание значения строк файла robots.txt:

  1. «User-agent: *» — правила, прописанные ниже будут относится ко всем поисковым системам и их роботам, кроме Яндекса и Google
  2. «User-agent: Yandex» — правила, прописанные ниже будут относится к поисковому гиганту Яндекс и всем его поисковым роботам (ПР)
  3. «User-agent: Googlebot» — правила, прописанные ниже будут относится к поисковому гиганту Гугл и всем его ПР
  4. «User-agent: Mail.Ru» — правила, прописанные ниже будут относится к поисковому гиганту Майл ру и всем его ПР
  5. «Disallow:» — условие запрещающее индексирование
  6. «Allow:» — условие разрешающее индексирование
  7. «*» —  звездочка означает допущение абсолютно любой и даже пустой последовательности символов
  8. «$» — дает возможность делать исключение для определенных файлов и каталогов в правиле
  9. «Host: vas-domen.ru» — данное правило используется только стариком Яндексом и указывает ему главное зеркало вашего сайта (www.sait.ru или sait.ru)
  10. «User-agent: Googlebot-Image» —  правила, прописанные ниже будут относится конкретно к поисковому боту Гугла, который занимается индексированием изображений
  11. «User-agent: YandexImages» —  правила, прописанные ниже будут относится конкретно к поисковому боту Яндекса, который занимается индексированием изображений
  12. «User-agent: Mediapartners-Google» — правила, прописанные ниже будут относится конкретно к поисковому боту Гугла, который занимается индексированием страниц и объявлений с рекламой AdSense. Напомню, что мы прописали там «Disallow:» это позволит подбирать более релевантные объявления и избежать ошибок индексирования. Если вы в будущем собираетесь размещать рекламу от Гугла или уже размещаете, то прописывайте такие правила сразу, чтобы на верочку было все ок, а то потом забудете.
  13. «User-Agent: YaDirectBot» — правила, прописанные ниже будут относится конкретно к поисковому боту Яндекса, который занимается индексированием страниц и объявлений с рекламой Яндекс Директ. В остальном все тоже самое, что писал в предыдущем пункте.
  14. «Sitemap:» — правило, в котором указывается ссылка на местоположение файла с картой сайта sitemap.xml.
  15. «Crawl-delay:» — полезное правило, которое снижает нагрузку на сервер, когда ПР очень часто заходят в гости к вашему сайту, здесь мы задаем время в секундах и говорим этим неугомонным товарищам, чтобы сканировали наш веб-ресурс не чаще, чем 1 раз в 5 секунд.

Ну вот мы и рассмотрели значение всех строк, если этой информации вам мало, то дополнительно рекомендую почитать справку Яндекса. Кстати, скачать полностью готовый файл robots.txt для сайта WordPress, можно — здесь. Не забудьте поменять в нём строчки:

4(1) ссылку на Sitemap
4(1) главное зеркало web-ресурса в директиве «Host:»

После того, как вы сделали все настройки и загрузили свой роботс в корневую папку сайта, обязательно проверьте его на ошибки, если вы скачали мой вариант, то можете не проверять, я уже это сделал, там всё чётко :-)

Вот на всякий случай парочка классных сервисов для анализа и проверки на ошибки файла robots.txt:

right Проверяем robots.txt в инструментах Яндекс Вебмастер: http://webmaster.yandex.ru/robots.xml
right Проверяем robots.txt в интсрументах Гугла: https://www.google.com/webmasters/tools/robots-testing-tool?hl=ru

Ну и напоследок, хочу обратить ваше внимание на то, что файл robots.txt для сайта WordPress важное звено в seo оптимизации, между вашим web-ресурсом и поисковыми роботами. С его помощью, вы можете влиять на индексацию сайта. Друзья, помните об этом и используйте свой роботс грамотно, ведь в seo не бывает мелочей.

Остались вопросы — пишите их в комментах, постараюсь ответить в ближайшее время. А какие инструкции используете вы в своем файле robots.txt из выше перечисленных?

Если вам понравилась статья, рекомендуйте её своим друзьям и подписывайтесь на рассылку блога. Увидимся в следующих постах, до связи 😉

С уважением, Иван Маслов

Обо мне - Иван Маслов

Привет! Меня зовут Иван Маслов, я автор этого блога. На своём блоге я делюсь полезной и проверенной информацией о создании блогов и сайтов на движке Wordpress, о SEO-оптимизации, продвижение сайтов и заработке в интернете. Если тебе интересны эти темы и ты хочешь получать самую лучшую и проверенную информацию, тогда подпишись на обновления моего блога прямо сейчас и гарантированно получай все свежие материалы на свой E-mail!

Читайте также

Сео оптимизация Wordpress

Основы SEO оптимизации WordPress! 3 самые популярные ошибки среди блогеров-новичков!

Всем привет! На днях провёл один эксперимент и выявил 3 самые распространённые ошибки, которые присутствуют …

Что такое seo статья?

Что такое seo статья? Каковы её основные критерии?

Привет всем! В этом посте будем беседовать на тему что такое seo статья и каким …

4 Комментарии

  1. Виктор

    толковый файл robots.txt, благодарю

  2. Длинный, однако, у Вас получился файл robots.txt — очень длинный, мне кажется...

    Думается, это, например:

    Disallow: /tag

    Disallow: /category/*/*

    правильнее закрыть в мета-robots: noindex/follow

    • В этой длине собраны все важные параметры, этот файл проверенный годами его даже одобрил один руководитель известной компании занимающейся seo продвижением сайтов.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Лимит времени истёк. Пожалуйста, перезагрузите CAPTCHA.