Дубликаты, нежелательные URL адреса в выдаче
ЧПУ, как много в этой аббревиатуре. ЧПУ даёт засунуть ключевики прямо в адрес, избавляет от повторений контента на разных URL адресах и в итоге потенциальные посетители получают красивые, удобные, структурированные адреса.
Очень часто ссылки приходят со скайпа или других мессенджеров, иногда в форму сабмита кидают просто адрес и он автоматически превращается в кликабельную ссылку. Это удобно и иногда взглянув на URL можно оценить, то ли это, что вы искали.
Обидная ситуация, кода все эти ЧПУ превращаются в мусорно-заспамленные данными сессии или другой хренью триады шлака. Причины появления подобных вещей различны. Например, сегодня обнаружил, что feedburner сделал все ссылки редиректом и при этом добавлял к ссылке нежелательный адрес вот такого вида:
seo-i-drupal-v-2011?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed:+shift-web+(Shift-Web's+SEO+киберкодинг)&utm_content=FeedBurner
Ну здорово. Движок то не сбрасывал на нормальный URL статьи. Фигово чем? Оно проиндексируется и будет дубликат, пользы с которого мало — скорее наоборот.
Убил в robots.txt:
Disallow: /*?utm_source*
Начал рыться в яндекс-вебмастер на предмет проиндексированных страниц и огорчился.

Собсно, красные кляксы — то, что не должно было попасть в выдачу, а зелёные — это то, что нормально.
Вопрос откуда эта шляпа берётся довольно интересный. Было замечено, что Google время от времени ходит по таким страницам. Вытекающий вопрос: с какой целью, со внешней ссылки? А может прозвонка на предмет клоакинга?
В любом случае неприятное явление. Перекрыл:
Disallow: /*?page=4&*=
Вообще наверное нужно как-то с .htaccess мудрить, чтобы такие вещи предусмотреть, либо уже на уровне php конкретно смотреть.
Были ли у Вас подобные моменты и как они сказались на выдаче?
Были и сейчас есть. Перекрыл доступ, но яша тупит и не хочет выкидывать из индекса. Пришлось прописать правило конкретно для него.
Совсем забыл. Вот что ответил Платон по этому поводу:
Здравствуйте! Приношу свои извинения за столь длительную задержку с ответом.Видимо, робот где-либо на Вашем сайте или в интернете обнаружил ссылки именно такого вида. Робот перешел по ним и проиндексировал страницы, так как они доступны на Вашем сайте (отдают код 200). В данном случае рекомендую Вам запретить индексирование не нужных Вам страниц в файле robots.txt .
На выдаче, вроде бы, никак не сказалось.
Здравствуйте. У меня ситуация подвинулась в лучшую сторону, но еще не совсем ясно как быть с отдельными случаями. Очень много всяких но.
Могу посоветовать поставить каноникал на все страницы. Паттерн примерно следующий:
<link rel="canonical" href="http://www.YOUR-DOMAIN.ru/real-page-location" />Таким образом при посещении страницы роботом, например с адресом:
http://www.YOUR-DOMAIN.ru/real-page-location?sadbvhasdОн будет знать, что индексируемое содержимое находится в другом месте. Это работает под Google, Bing, Yahoo. Ситуация с Яднекс не ясная. По данным на 2009 год этот тег не поддерживался. В 2010 они обещались сделать поддержку к декабрю-январю, но до сих пор видимо не сделали. Думаю, в любом случае полезно и стоит проставить.
Отправить комментарий