Удивительная статистика, 9 из 10 сайтов, которые заказывают seo аудит имеют общую ошибку, а именно дубли страниц в индексе, либо пустые страницы. Такие страницы образуются благодаря особенностям CMS (двигателя сайта). И если они попадают в поисковую выдачу, тем самым снижают важность основных страниц и являются причиной плохой выдачи сайта.
Как найти дубли страниц на сайтеВ этой статье мы разберемся как найти дубли страниц на сайте, почему они возникают и как с ними бороться? Ведь удаление дублей страниц является обязательной процедурой, если вы хотите продвинуть свой сайт в топ. Поэтому если вы даже уверены, что у вас нет дублей, не поленитесь и проверьте!

Распространенные ошибки

oshibki_na_dubliКаждая из CMS имеет множество настроек, где можно указывать, как именно должна быть доступна главная страница. Конечно эти настройки касаются так же и файла htaccess. Посмотрите на картинку выше и проверьте, доступна ли ваша главная страница по дополнительным URL. По идее должен быть настроен 301 редирект на главную, либо выводиться ошибка 404.

Пагинация страниц

Пагинация страницТак же частой ошибкой можно назвать попадание в поиск страниц имеющие пагинацию (нумерация страниц). У меня на блоге эта нумерация статей и для каждой страницы выводится дополнительный url путь: page/2, page/3 и тд. И таких страниц в индекс поисковиков может залететь тысячи, что является ошибкой.

Но еще хуже если интернет магазин делает разбивку товаров по страницам по 20-40 штук, когда у него на одну страницу может приходиться по 1 000 товаров. Я считаю лучший выход из такой ситуации, это поставить прокрутку товаров. Да и самим пользователям удобнее, когда товары подгружаются ниже, а не нужно переходить на следующие страницы.

Feed — Новостная лента

В блогах, интернет-журналах и некоторых CMS есть такое дополнение, как автоматическое формирование ленты новостей (feed). Как правило это анонсы статей, которые полностью повторяют структуру сайта. И такие страницы иногда попадают в индекс быстрее, чем основные. Это может увеличить в 2 раза страниц Яндексе, где будет одинаковый контент.

Решается эта проблема достаточно просто. В файле robots.txt нужно добавить строчку Disallow: /feed .

Профили и комментарии

comment2755Если на сайте есть регистрации с личным кабинетом, который не доступен для других, то он может так же спокойно попасть в индекс. Примерно с такими url:/?profile227. Иногда достаточно сделать автоматический 301 редирект на главную, что бы избавиться от дублей. Но если это не помогает, то можно на время поставить в robots.txt строчку: Disallow: /? .

С комментариями на сайте может приключиться такая же проблема, каждый из комментариев имеет свой id и для каждого из них формируется url. И если комментарии не древовидного типа и стоят ссылки на эти комментарии, то они могут проиндексироваться в поиске как отдельная страница с контентом! Мне лично помог robots.txt, добавил строчку: Disallow /comment (для вас возможна другая строчка). Либо ссылки в теги noindex, nofollow.

Основные способы поиска дублей страниц сайта

Если же у вас нету стандартных ошибок, то приступим к поиску дублей страниц сайта. Ведь все равно остается шанс, что у вас найдутся дубли страниц.

1. Вебмастер Google

Вебмастер GoogleЕсли вы до сих пор не добавили сайт в вебмастер Google,то рекомендую сделать это прямо сейчас. Поскольку в Гугл удобно отслеживать индексацию страниц, анализировать дубли, удалять страницы из индекса и быстро вносить новые. А так же считаю полезным, залить свой файл robots.

2. Программа Xenu

Программа XenuXenu — это бесплатная программа для оптимизация сайта. Она отлично сканирует все страницы и файлы, которые находятся на сайте, после чего показывает битые ссылки, дубликаты страниц и отлично помогает в перелинковке сайта. В общем советую программу, которая отлично помогает для продвижения сайта в Яндекс и Google.

3. Поисковая выдача

Поисковая выдачаИногда достаточно посмотреть поисковую выдачу и просто полистать страницы. Что бы увидеть, какие лишние страницы попали в индекс. Такая практика так же помогает понять, где на сайте плохо сформировались title и description. Но если вам тяжело листать выдачу и искать дубли, то можно воспользоваться онлайн сервисами «проверки уникальности«.

уникальность контентаЛично я использую для эти целей Content-watch.ru, где можно не только узнать, какие из страниц дублируются, но и насколько уникальный у вас контент относительно других. Если ниже 70%, то рекомендую поднять результат, это так же положительно скажется для seo. Информация конечно не новая, но надеюсь теперь вы знаете как найти дубли страниц сайта без использования seo аудита.