Как составить правильный robots.txt
Начнем с того, что robots.txt — это текстовый файл в корневой папке сайта, в которым указаны правила индексирования своего сайта для поисковых роботов и отдельно для каждой поисковой системы. Соответственно, с помощью этого файла можно закрывать от индекса все ненужные страницы, такие как: Админ панель, профили пользователей, комментарии, скрипты и тд. Остаётся вопрос, как составить правильный robots.txt и что следует запрещать для индексации? Для этого не нужно быть гением или перечитывать сотни советов о том, что должно быть закрытым. Умные ребята просто смотрят топ сайты и заимствуют некоторую информацию.
К примеру возьмем мой сайт, вот мой robots (где можно увидеть, что запрещено для индекса). Важно знать, что следует исключать для индексации те страницы, которые не несут нужной информации для пользователей поиска.
Как сделать правильный robots.txt и разместить на сайте
Для того, что бы сделать правильный robots.txt, нужно создать на рабочем столе текстовый документ. Называем файл «robots» (формат файла изначально стоит txt, если отрывается через блокнот).
Что в нем написать? Что бы узнать, что у меня в этом файле, рекомендую просто написать в адресной строке http://seosko.ru/robots.txt, можно просто скопировать все строки в свой файл robots, только замените мой домен seosko, на свой. При условии, что ваш блог похож на мой.
Для тех кому лень открывать, вот содержание моего файла:
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /feed Disallow: /tag User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /tag Disallow: /author Host: seosko.ru Sitemap: http://seosko.ru/sitemap.xml - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Но у меня блог поэтому и мои правила для индексирования могут не подойти конкретно вам, поэтому рекомендую проделать такую же процедуру взяв за основу топ сайты по вашей тематике.
После создания файла robots.txt, заходим в панель администратора на вашем хостинге, заходим в файловый менеджер, открываем папку с вашим сайтом. У меня это public html > seosko.ru > сюда заливаем файл robots.txt.
Если ваш сайт добавлен в Яндекс вебмастер, тогда добавляем robots файл для Яндекса — здеь.
Краткое пояснение:
User-agent — показывает, какая поисковая система должна соблюдать прописанные правила.
Disallow — закрытие от индексации.
Allow — преимущественная индексация.
Допустим если у вас есть Disallow /picture и Allow: /picture в одном файле, то преимущественно будет у Allow и все что внутри с url «/picture» будет допущена до индексирование.
Что нужно закрыть от индексации в robots.txt
Прежде всего, что нужно закрыть от индексации в robots.txt это дубли контента, например теги (метки). Ведь они полностью повторяют информацию выводимую в категориях, а так же забирают вес страницы, что не совсем правильно, если вы н планируете продвигаться по тегам. Вот самые популярные ошибки, мешающие росту веб сайта.
Ошибка №1
Попадание в индекс дублей главной страницы. Одна из самых популярных и тяжёлых ошибок для любого веб мастера. Порой бывает, что сайт доступен по таким ссылкам как: site.ru/index, site.ru/(и бывает, что такие страницы попадают в индекс и ранжируются на ровне с главной) www.site.ru и без www.
Ошибка №2
Попадание в индекс админ панели сайта и технических разделов, форма обратной связи, облако тегов, баннеры на сайте. Такие вещи не критичны для сайта, но являются крупной ошибкой, если такие страницы присутствуют в индексе.
Ошибка №3
Индексирование профилей пользователей, теги, страницы без контента. Всё это мусор, который захламляет выдачу, который мешает ранжировать основные страницы выше. Если у вас небольшой проект, менее 100 страниц, то такие ошибки будут критичными.
Как показывает практика, если страницы тегов оптимизированы и их название тематическое, подобранное под ключевые слова (желательно средней частоты) при условии, что у вас большой проект. То это даёт жирный плюс страницам, где присутствуют ссылки на теги. А так же, можно успешно продвигаться с помощью тегов в самом поиске и выходить в топ 10 по нужным запросам. Надеюсь теперь вы знаете как составить правильный robots.
Откуда такая тяга у всех закрывать сиджиай-бин в роботе? Да и вп-админ… На сайте не должно быть ни 1 ссылки ведущей в эти папки. А следовательно при нормальном заполнении сайта и в роботсе оно не нужно. Туда же относим все технические папки на которые ссылок на сайте быть не может. Все эти плагинс, темс… Они только показывают всем желающим что у тебя ВП, облегчая взлом.
Получается из всего роботса реально работает только запрет для всех меток и РСС ленты и запрет персонально Яндексу меток и страниц авторов. Откуда различие… Зачем…
Опять же. Если автор на блоге один то грамотнее настроить 301 редирект с этой страницы на главную ибо они будут дублироваться, а так весь не будет полностью пропадать.
PS Сайтмап тоже странно размещён, я бы продублировал в обоих блоках а не создавал отделльный, но это уже мне неизвестно как работает, потому поверим на слово.
полностью согласаен)