Дек
8
2010

Как избавиться от дубль-контента?

Что такое дубль контент?

Дубль контент – это контент, текст которого абсолютно идентичен по разным URL-адресам.
В этой статье речь идёт о дублированном контенте в пределах одного веб-ресурса., то есть, набрав адрес: или , вы попадаете на страницы, текст которых абсолютно одинаковый.
Что такое robots.txt?

Оптимизируя сайт под поисковую систему Яндексу, необходимо уделить должное внимание файлу robots.txt, который предназначен для поисковых роботов. В этом файле нужно указать роботу-поисковику параметры индексирования сайта.
Создать сам файл robots.txt очень просто, для этого можно воспользоваться любым текстовым редактором, установленным на ваш персональный компьютер (Notepad или обычный блокнот).
Самое главное – это указать правильно параметры индексирования.

Кстати, а вы знаете, какие самые популярные запросы в Яндекс были в этом году? Если нет, то рекомендую ознакомиться и узнать, что же больше всего интересовало пользователей сети в уходящем году.

Зачем избавляться от дубль контента?

В «Рекомендации Яндекса по созданию сайтов» указано, что необходимо закрывать не представляющие ценности (ни для поисковых систем, ни для пользователей) страницы, к которым, в том числе, относятся «дубликаты страниц».
Исходя из этой рекомендации, целесообразно будет избавиться от дубль контента при помощи файла robots.txt.

Все вебмастера (90% точно) прекрасно знают, что дубль контент на разных сайтах приведёт к попаданию одного из них под фильтр Яндекса АГС. Здесь всё зависит от того, чей сайт (а точнее дублированный контент) проиндексируется позже.
В пределах одного сайта, таких мер, поисковая система Яндекс, не применяет, пока не применяет. Дело в том, что дублированный контент, по мнению Яндекса, это информация не несущая в себе никакой пользы и является лишней нагрузкой для работы поискового робота, увеличивая сроки индексации сайта, а также может привести к неправильной выдачи страниц (то есть по поисковому запросу будут выдаваться дублированные страницы, а не основные продвигаемые).

Как избавиться от дубль контента при помощи robots.txt?

В файле robots.txt есть специальная директива, закрывающая доступ поисковому роботу. Эта директива называется ‘Disallow’.
При помощи данной директивы необходимо закрыть от индексации следующие страницы и файлы:
- tag, так как теги выводят страницы с кратким описание статей, как на главной, но адрес для поисковых систем другой — это дубль .
- comments, так как выводит всю страницу с текстом целиком с другим адресом — это дубль .

По поводу «категорий» блога вопрос спорный, да категории также как и теги создают дубль , но ведь поисковым роботам нужно как-то добираться до постов, которые записаны месяц, два, три назад, а то и годы. В противном случае старые посты будут настолько далеко от главной, что торговать ссылками оттуда будет невозможным (кого не интересует продажа ссылок и заработок на блоге, может не волноваться по этому поводу).

Кто вообще не знаком с файлом robots.txt и понятия не имеет для чего он нужен, рекомендую почитать здесь: http://help.yandex.ru/webmaster/?id=996567, если никак не получается охватить всё, что там написано, то задавайте вопрос в комментариях к данному посту. Чем смогу, помогу.

Скажем дружно «Нет дублированному контенту

© 2010, Деньги-SEO-Деньги. Уважайте чужой труд! При копирование материала делайте ссылку на блог автора.

Похожие сообщения


e2d4290d

Об авторе:

Занимаюсь саморазвитием в области seo-оптимизации и сайто-монетизации. http://sharemant.ru/ - мой блог | деньги-seo-деньги - название моего блога Заработай на своём блоге. Лучший заработок на кинотрафике!

Есть 1 комментарий. + Добавить

Оставить комментарий