Прежде, чем мы начнём говорить о том, что дубли страниц — это плохо, разберёмся вообще с понятием «дубли». В принципе, как это называется, такой смысл и имеет: представьте, что у вас есть две одинаковые по наполнению страницы, но с разными адресами.
Как появляются эти зловещие дубли? Это может быть из-за ошибок, которые допускают разработчики: неправильно настроенная CMS или плагины, дубли одного и того же URL с расширениями или, например, одинаковые товары, которые располагаются в разных категориях по разным адресам.
Помимо понятия «дубль» нужно разобраться и с их разновидностями: полные и частичные. Первые имеют одинаковый контент, но, как вы поняли, разные ссылки, а у вторых — только части страниц дублируются.
Чем же грозят эти внутренние дубли? Из неприятностей, которые грозят для сайта — это проблемы с индексацией, общая пессимизация проекта и санкции поисковых систем, а ещё размытие релевантности и ранжирование нецелевых страниц. Как вы понимаете, эти неприятности сайту ни к чему, поэтому важно не только знать о существовании дублей, но и о том, как с ними бороться.
Полные дубли намного проще определить, при этом и вреда от них намного больше. Самый крах, когда дубли индексируются поисковыми системами. Для предотвращения таких негативных последствий необходимо выявлять и устранять их.
Специалисты используют программное обеспечение Netpeak Spider. Этот софт помогает обнаружить полные внутренние дубли страниц. Другой способ — использование стандартных поисковиков. В это случае придётся немного поработать руками: вписать «site:» в поисковую строку, а после двоеточия добавить адрес сайта, это позволит увидеть все страницы, которые попадают в выдачу.
Если вы столкнулись с такой проблемой, то её незамедлительно нужно решить, чтобы убрать дубли и оптимизировать выдачу, а также повысить качественные характеристики сайта. Наиболее простой и эффективный способ — 301 редирект. Этот способ представляет собой перенаправление дублированной страницы на главную. Как это работает? Робот видит переадресацию и отмечает, что по данному адресу информация недоступна.
Есть ещё один похожий способ: контроль индексации разных страниц роботом. Для этого прописывается метатег meta name=»robots» content=»noindex, nofollow>. Эта команда прямая, поэтому соблюдается роботом при обходе.
Подведём итог. Дубли бывают частичные и полные. Их появление ведёт к ухудшению индексации, а значит, вредит всему бизнесу. Чтобы этого избежать необходимо постоянно проверять свой сайт на наличие дублей и исключать их в случае обнаружения через переадресацию или метатеги.