Дубликаты, нежелательные URL адреса в выдаче

ЧПУ, как много в этой аббревиатуре. ЧПУ даёт засунуть ключевики прямо в адрес, избавляет от повторений контента на разных URL адресах и в итоге потенциальные посетители получают красивые, удобные, структурированные адреса.

Очень часто ссылки приходят со скайпа или других мессенджеров, иногда в форму сабмита кидают просто адрес и он автоматически превращается в кликабельную ссылку. Это удобно и иногда взглянув на URL можно оценить, то ли это, что вы искали.

Обидная ситуация, кода все эти ЧПУ превращаются в мусорно-заспамленные данными сессии или другой хренью триады шлака. Причины появления подобных вещей различны. Например, сегодня обнаружил, что feedburner сделал все ссылки редиректом и при этом добавлял к ссылке нежелательный адрес вот такого вида:

seo-i-drupal-v-2011?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed:+shift-web+(Shift-Web's+SEO+киберкодинг)&utm_content=FeedBurner

Ну здорово. Движок то не сбрасывал на нормальный URL статьи. Фигово чем? Оно проиндексируется и будет дубликат, пользы с которого мало — скорее наоборот.

Убил в robots.txt:

Disallow: /*?utm_source*

Начал рыться в яндекс-вебмастер на предмет проиндексированных страниц и огорчился.

плохие адреса

Собсно, красные кляксы — то, что не должно было попасть в выдачу, а зелёные — это то, что нормально.

Вопрос откуда эта шляпа берётся довольно интересный. Было замечено, что Google время от времени ходит по таким страницам. Вытекающий вопрос: с какой целью, со внешней ссылки? А может прозвонка на предмет клоакинга?

В любом случае неприятное явление. Перекрыл:

Disallow: /*?page=4&*=

Вообще наверное нужно как-то с .htaccess мудрить, чтобы такие вещи предусмотреть, либо уже на уровне php конкретно смотреть.

Были ли у Вас подобные моменты и как они сказались на выдаче?

Wood-doors

Были и сейчас есть. Перекрыл доступ, но яша тупит и не хочет выкидывать из индекса. Пришлось прописать правило конкретно для него.

Wood-doors

Совсем забыл. Вот что ответил Платон по этому поводу:

Здравствуйте! Приношу свои извинения за столь длительную задержку с ответом.Видимо, робот где-либо на Вашем сайте или в интернете обнаружил ссылки именно такого вида. Робот перешел по ним и проиндексировал страницы, так как они доступны на Вашем сайте (отдают код 200). В данном случае рекомендую Вам запретить индексирование не нужных Вам страниц в файле robots.txt .

На выдаче, вроде бы, никак не сказалось.

shift-web

Здравствуйте. У меня ситуация подвинулась в лучшую сторону, но еще не совсем ясно как быть с отдельными случаями. Очень много всяких но.

Могу посоветовать поставить каноникал на все страницы. Паттерн примерно следующий:

<link rel="canonical" href="http://www.YOUR-DOMAIN.ru/real-page-location" />

Таким образом при посещении страницы роботом, например с адресом:

http://www.YOUR-DOMAIN.ru/real-page-location?sadbvhasd

Он будет знать, что индексируемое содержимое находится в другом месте. Это работает под Google, Bing, Yahoo. Ситуация с Яднекс не ясная. По данным на 2009 год этот тег не поддерживался. В 2010 они обещались сделать поддержку к декабрю-январю, но до сих пор видимо не сделали. Думаю, в любом случае полезно и стоит проставить.

Отправить комментарий