Как найти дубли страниц на сайте
Удивительная статистика, 9 из 10 сайтов, которые заказывают seo аудит имеют общую ошибку, а именно дубли страниц в индексе, либо пустые страницы. Такие страницы образуются благодаря особенностям CMS (двигателя сайта). И если они попадают в поисковую выдачу, тем самым снижают важность основных страниц и являются причиной плохой выдачи сайта.
В этой статье мы разберемся как найти дубли страниц на сайте, почему они возникают и как с ними бороться? Ведь удаление дублей страниц является обязательной процедурой, если вы хотите продвинуть свой сайт в топ. Поэтому если вы даже уверены, что у вас нет дублей, не поленитесь и проверьте!
Распространенные ошибки
Каждая из CMS имеет множество настроек, где можно указывать, как именно должна быть доступна главная страница. Конечно эти настройки касаются так же и файла htaccess. Посмотрите на картинку выше и проверьте, доступна ли ваша главная страница по дополнительным URL. По идее должен быть настроен 301 редирект на главную, либо выводиться ошибка 404.
Пагинация страниц
Так же частой ошибкой можно назвать попадание в поиск страниц имеющие пагинацию (нумерация страниц). У меня на блоге эта нумерация статей и для каждой страницы выводится дополнительный url путь: page/2, page/3 и тд. И таких страниц в индекс поисковиков может залететь тысячи, что является ошибкой.
Но еще хуже если интернет магазин делает разбивку товаров по страницам по 20-40 штук, когда у него на одну страницу может приходиться по 1 000 товаров. Я считаю лучший выход из такой ситуации, это поставить прокрутку товаров. Да и самим пользователям удобнее, когда товары подгружаются ниже, а не нужно переходить на следующие страницы.
Feed — Новостная лента
В блогах, интернет-журналах и некоторых CMS есть такое дополнение, как автоматическое формирование ленты новостей (feed). Как правило это анонсы статей, которые полностью повторяют структуру сайта. И такие страницы иногда попадают в индекс быстрее, чем основные. Это может увеличить в 2 раза страниц Яндексе, где будет одинаковый контент.
Решается эта проблема достаточно просто. В файле robots.txt нужно добавить строчку Disallow: /feed .
Профили и комментарии
Если на сайте есть регистрации с личным кабинетом, который не доступен для других, то он может так же спокойно попасть в индекс. Примерно с такими url:/?profile227. Иногда достаточно сделать автоматический 301 редирект на главную, что бы избавиться от дублей. Но если это не помогает, то можно на время поставить в robots.txt строчку: Disallow: /? .
С комментариями на сайте может приключиться такая же проблема, каждый из комментариев имеет свой id и для каждого из них формируется url. И если комментарии не древовидного типа и стоят ссылки на эти комментарии, то они могут проиндексироваться в поиске как отдельная страница с контентом! Мне лично помог robots.txt, добавил строчку: Disallow /comment (для вас возможна другая строчка). Либо ссылки в теги noindex, nofollow.
Основные способы поиска дублей страниц сайта
Если же у вас нету стандартных ошибок, то приступим к поиску дублей страниц сайта. Ведь все равно остается шанс, что у вас найдутся дубли страниц.
1. Вебмастер Google
Если вы до сих пор не добавили сайт в вебмастер Google,то рекомендую сделать это прямо сейчас. Поскольку в Гугл удобно отслеживать индексацию страниц, анализировать дубли, удалять страницы из индекса и быстро вносить новые. А так же считаю полезным, залить свой файл robots.
2. Программа Xenu
Xenu — это бесплатная программа для оптимизация сайта. Она отлично сканирует все страницы и файлы, которые находятся на сайте, после чего показывает битые ссылки, дубликаты страниц и отлично помогает в перелинковке сайта. В общем советую программу, которая отлично помогает для продвижения сайта в Яндекс и Google.
3. Поисковая выдача
Иногда достаточно посмотреть поисковую выдачу и просто полистать страницы. Что бы увидеть, какие лишние страницы попали в индекс. Такая практика так же помогает понять, где на сайте плохо сформировались title и description. Но если вам тяжело листать выдачу и искать дубли, то можно воспользоваться онлайн сервисами «проверки уникальности«.
Лично я использую для эти целей Content-watch.ru, где можно не только узнать, какие из страниц дублируются, но и насколько уникальный у вас контент относительно других. Если ниже 70%, то рекомендую поднять результат, это так же положительно скажется для seo. Информация конечно не новая, но надеюсь теперь вы знаете как найти дубли страниц сайта без использования seo аудита.