Прежде, чем мы начнём говорить о том, что дубли страниц — это плохо, разберёмся с самим понятием. В принципе, как это явление называется, такой смысл и имеет: представьте, что у вас есть две одинаковые по наполнению страницы, но с разными адресами.
Как появляются эти зловещие дубли? Это может быть из-за ошибок, которые допускают разработчики: неправильно настроенная CMS или плагины. Дубли одного и того же URL с разными расширениями — html или php, дубли с get-параметрами после восклицательного знака — ?a=24&b=55 или, например, одинаковые товары, которые располагаются в разных категориях, но имеют не один адрес, а несколько, по которым доступны.
Еще существуют разновидности дублей: полные и частичные. Первые имеют одинаковый контент, но, как вы поняли, разные ссылки, а у вторых дублируются только части страниц.
Чем же опасны эти внутренние дубли? Из неприятностей, которые грозят для сайта — это проблемы с индексацией, общая пессимизация проекта и санкции поисковых систем, а ещё размытие релевантности и ранжирование нецелевых страниц. Как вы понимаете, эти неприятности сайту ни к чему, поэтому важно не только знать о существовании дублей, но и уметь с ними бороться.
Наибольшую опасность сайту несут полные дубли. Однако обнаружить их проще, чем частичные. Самый крах, когда дубли индексируются поисковыми системами. Для предотвращения таких негативных последствий необходимо выявлять и устранять их.
Специалисты используют программное обеспечение Netpeak Spider. Этот софт помогает обнаружить полные внутренние дубли страниц. Другой способ — использование стандартных поисковиков. В этом случае придётся немного поработать руками: вписать «site:» в поисковую строку, а после двоеточия добавить адрес веб-ресурса. Это позволит увидеть все страницы, которые попадают в выдачу.
Наконец, часть дублей можно найти, подставляя определенные символы в URL страниц. Есть распространенные схемы записи дублей, которые встречаются у каждого первого на этапе разработки сайта. Например, главная страница может генерироваться при обращении по адресу с конечным слешем, с параметрами get, которые передаются в скрипт после знака вопроса. Бывают простейшие дубли, когда URL одинаково верный с www и без www, с https и http. Такие дубли выявляются простым прописыванием символов в адресе страницы.
Если вы столкнулись с такой проблемой, то её незамедлительно нужно решить, чтобы убрать дубли и оптимизировать выдачу, а также повысить качественные характеристики сайта. Наиболее простой и эффективный способ — 301 редирект. Этот способ представляет собой перенаправление с копии на оригинал, хотя, в случае с дублями, где копия, а где оригинал — разделение порой условное. Как это работает? Робот видит переадресацию и отмечает, что по данному адресу информация недоступна.
Есть ещё один похожий способ: контроль индексации разных страниц посредством управления поисковым роботом, который обходит страницы и помещает их в индекс поисковика — в его базу данных. Для этого прописывается метатег в HTML-коде страницы: meta name=«robots» content=«noindex, nofollow». Эта команда прямая, поэтому соблюдается роботом при обходе.
Дубли можно закрывать от индексации через файл robots.txt. Он «указывает» роботу поисковика, какие страницы тот может помещать, какие — нет. Чтобы прописать страницу или страницы с аналогичными урлами, которые можно привести к одной условной схеме, нужно изучить инструкции для записи. А это тема отдельной статьи.
Подведём итог. Дубли бывают частичные и полные. Их появление ведёт к ухудшению индексации, а значит, вредит всему бизнесу. Чтобы этого избежать, необходимо постоянно проверять свой сайт на наличие дублей и исключать их в случае обнаружения, используя наиболее адекватный в каждом конкретном случае способ.