Тонкая настройка модуля XML Sitemap с привязкой таксономии в Drupal

Для улучшения информационной архитектуры ресурса на базе CMF Drupal требуется установить несколько модулей. Они добавляют те опции, которые не входят в коробочную версию. На примере простенького сайта разберём какие компоненты модулей нам потребуются и как их грамотно настроить. В этой части обзора речь пойдёт о тонкой настройке модуля XML Sitemap.

Выбор компонентов модуля XML Sitemap

Первым делом скачиваем: XML Sitemap.

После скачивания модуля распакуем архив и выберем только нужные нам компоненты, остальное удалим. Я не буду расписывать всё, что нужно оставить, просто выложу скриншот с папки модуля, готовой к заливке на сервер.

XML Sitemap

Компоненты XML Sitemap Здесь нам нужно всего лишь 3 компонента: XML sitemap, XML sitemap node, XML sitemap taxonomy. Первый — базовый, второй позволяет добавлять в карту любые типы страниц, третий для таксономии.

Нужны только три компонента т.к. большинство сайтов не содержат в профилях пользователей каких бы то ни было ценных данных. Следовательно профили пользователей вообще индексировать ни к чему, уменьшим очередь обхода и оставим приоритет за контентом.


Настройка XML Sitemap

Все нужные компоненты выбраны, заливаем их на сервер. Включаем модули и переходим к настройке.

/admin/settings/xmlsitemap/settings

Порядок настройки XML Sitemap и пояснения

Настройка XML Sitemap общая

Пояснений практически не требует. Минимальное время жизни карты устанавливаем в зависимости от объема информации. Для больших сайтов во избежание постоянной перестройки карты, вызывающей нагрузку, ставим побольше. Если сайт маленький 10-400 нод, то его можно не устанавливать вовсе.

Использовать стили — включает улучшенное оформление карты сайта для восприятия человеком. Практически бесполезная опция.

Prefetch URL aliases — когда включено, обрабатывает все URL синонимы одним разом по запуску крона. Для малых сайтов(10-400 нод) можно включить.

Настройка XML Sitemap расширенные настройки

Количество ссылок на одну карту сайта — эта опция определят порог количества адресов, после которого лишние URL будут попадать в дополнительную карту сайта. Карты автоматически объединяются индексным файлом. Если у Вас более 25000 адресов, то имеет смысл кастомизировать опции для понижения нагрузки на генерацию.

Maximum numbers to process at once — сколько адресов обрабатывать за один запуск крона для добавления в карту сайта. Если контент часто обновляется, во избежание нагрузки выставляйте 100-200. Число будет также зависеть от того на сколько часто у вас запускается Cron.

Default Base URL — полный путь главного зеркала сайта. Либо с www, либо без www. В зависимости от ваших предпочтений.

Last modification date format — формат штампа даты последнего обновления. Ставим полный.

Настройка XML Sitemap таксономия

Эта секция настраивает словари таксономии, которые должны быть отображены в карте сайта. Включить в карту нужно весь полезный контент, который должен быть проиндексирован. Исключить стоит те словари, которые не несут информационной ценности для пользователей, пришедших с поисковика.

Здесь же можно посмотреть статистику карты и увидеть какие адреса ожидают обработки, какие ещё не обработаны и какие уже находятся в карте сайта.

Настройка XML Sitemap главная страница

Почти всегда целесообразно для главной страницы ставить приоритет 1. Это высший приоритет и первой в списке будет сканироваться главная страница сайта. Это разумно т.к. большинство сайтов выводят новые материалы именно на главную.

Частоту обновления нужно установить в зависимости от того, как часто обновляется главная страница. Если новое появляется раз в день, то daily — оптимальное значение, если раз в неделю, то weakly.

Настройка XML Sitemap содержимое

Последняя полезная секция настраивает присутствие отдельных типов содержимого в карте Drupal. Можно включить или исключить из карты типы содержимого не являющиеся контентными и те, что не требуется индексировать.

Настройка карты сайта для отдельных страниц

Не стоит забывать, что любую отдельную страницу созданную пользователем (ноду) можно настроить отдельно. Это полезно, когда маска запрещает весь спектр страниц одного типа материала, но нужно включить в карту отдельную страницу.

настройка отдельной ноды для карты сайта

Соответствующая секция появится при редактировании и создании нового материала.

Более того, подобная настройка будет доступна и индивидуальна для каждого отдельного словаря и термина таксономии.

Запуск обновления карты

После настройки типов материалов, словарей и терминов таксономии запускаем обновление карты сайта.

admin/settings/xmlsitemap/rebuild

Опцию save and restore лучше оставить включенной, это предотвратит сброс настроек для отдельно сконфингурированных страниц. После добавления нового содержимого оно не попадает в карту сразу, это происходит после ручного либо автоматического запуска хронометра.

Запуск обновления карты сайта на Drupal

Также не стоит запускать перестройку карты каждый раз после появления новых материалов.

Пропишем sitemap.xml в robots.txt

Не забывайте добавить строку указывающую на карту сайта в robots.txt. Адрес должен совпадать с адресом главного зеркала, которое вы указали в настройках Default Base URL. Теперь нет надобности добавлять карту во все мыслимые поисковики, они сами найдут её.

User-agent: *
Crawl-delay: 1
....
...
....
Sitemap: http://YOUR-DOMAIN.ru/sitemap.xml
Host: YOUR-DOMAIN.ru

Google Sitemap

Google поддерживает специальные карты сайта для новостей, видео, картинок и д.р., но спецификация этих карт несколько отличается от традиционных sitemap.xml. Чтобы не навлекать непонятки со стороны других поисковиков рекомендуется делать отдельные карты для гугл.

У меня при попытке скормить в Яндекс карту сайта содержащую информацию об изображениях в вебмастере вылезли предупреждения. Не могу сказать точно на сколько оно плохо влияет на Яндекс, но рисковать не хочется. Позже отпишусь о результатах.

Есть хороший модуль для построения карты новостей под Google. Если надумаете использовать его, то качайте прямо сейчас(в скором будущем её может не оказаться в виде отдельного модуля и по всей видимости весь функционал спихивается в один компонентный модуль, что не учитывает наши интересы продвигать под Яндекс). Карту он строит отдельно от основной, что позволяет скормить её google через веб-мастер. Настройка элементарна.

настройка google news sitmap

Подробности о файле карты сайта sitemap.xml.

Катериша

Большое спасибо, мне помогла статья. Но не совсем поняла Google News надо отдельно настраивать. Или установил - выставил галочки и все готово.

shift-web

Пожалуйста. Нет там просто галочки поставить, на типы содержимого и всё. Только нужно будет его отдельно в Google добавлять.

Начинающий друпалер

Спасибо за статью и остальные материалы на вашем сайте. Симпатичный у вас сайт. Однако в меню shift ('f' и 't') нужно проследить событие hover в js - при наведении на элемент подменю - меню автоматически закрывается и весьма сложновато пройти к нужному разделу. Думаю, что событие hover обрывается из-за div.search-bar, который перекрывает нижнюю правую часть меню 'shift'. Успехов вам.

shift-web

Начинающий друпалер, всегда пожалуйста и спасибо за багрепорт. Действительно проблема в перепутанных z-index.

sv

Спасибо. Объяснение очень четкое и полезное.

Единственное наблюдение, которое может кому "из чайников" еще пригодится: следуя всем пояснениям статьи, мною на сайте была поставлена новая версия модуля (зачем - не понятно, просто с идеей, что чем новее, тем лучше). Вроде бы все хорошо, но ... из индекса гугла пропали все изображения. Хорошо, что в моем случае картиночный трафик был ни к чему, и скорее даже мешался ..., но ведь некоторым может быть важно. Вбивать руками тысячи изображений в гуловский сайтмап - нереально. Да и позиции, наверняка, провалятся ведь.

Возможно, что это просто был глюк, но в любом случае про индексацию картинок неплохо было бы как-то аккуратнее пояснить - для тех, кто обновляется по крайней мере.

shift-web

Хорошо. Гляну как будет время.

рифма

а частоту обновления других материалов можно настроить?

shift-web

Можно для каждого типа контента индивидуально. Смотрите настройки там же.

Artyom

Подскажите, у меня проблема, установлен xmlsitemap-6.x-2.0-beta, настройки выполнены так как показано. Но при попытке просомотреть карту сайта выдается ошибка: Запрошенная страница не найдена. Крон запускал, ребилд делал, результат 0, все типы контента включены, для новостей установлен приоритет 1, для всего остального 0,5

Artyom

Все, проблема решена, может кому пригодится, решение следующее:

1. Вручную удаляем директории и файлы в sites/default/files/xmlsitemap/ 2. Удаляем карту сайта созданную ранее в admin/settings/xmlsitemap 3. Запускаем крон 4. Создаем новую карту сайта 5. в "Изменить настройки" выбираем Update cached files 6. Жмем Rebuild links

Проверяем работоспособность карты и подсовываем ее поисковикам

shift-web

Artyom# пишет:

Все, проблема решена, может кому пригодится, решение следующее:

...

Проверяем работоспособность карты и подсовываем ее поисковикам

На самом деле было достаточно было проверить права на папку Nice наверное из-за этого карта не создавалась.

Artyom

Artyom# пишет:

Artyom# пишет:

Все, проблема решена, может кому пригодится, решение следующее:

...

Проверяем работоспособность карты и подсовываем ее поисковикам

На самом деле было достаточно было проверить права на папку Nice наверное из-за этого карта не создавалась.

да нет, я уж в целях эксперимента права на папку ставил 777, так что, не в этом дело было

shift-web

Любопытная фигня. Спасибо за решение.

kir

Здравствуйте. Возникла такая проблема при работе с картой - некоторые страницы попали в неё 2 раза. При ручной настройке на страницах (т.е. исключении из карты) из списка пропали только дубли, первые ссылки остались, хотя ведут они на фактически исключённые страницы. В чём может быть проблема, и будут ли эти страницы в карте на самом деле? Спасибо заранее.

shift-web

kir# пишет:
Возникла такая проблема при работе с картой...

Возможно из-за обновления модуля возникли дубликаты в бд. Стоит попробовать сделать rebuild карты -- должно помочь. Если не поможет, то попробуйте вытянуть таблицы из БД с настройками модуля за исключением списка нод, удалить модуль, поставить заново и вернуть настройки. После этого rebuild соответственно.

Вообще модуль бажный достаточно, поэтому сказать что-то утвердительно не могу.

Гость

User-agent: *
Crawl-delay: 1
....
...
....
Sitemap: http_://YOUR-DOMAIN.ru/sitemap.xml
Host: YOUR-DOMAIN.ru

вопрос от новичка!
Объясните пожалуста несколько значений прописываемых в robots.txt:
что значит звёздочка возле слова User-agent:
и единица возле Crawl-delay:
ну и по поводу точек...какой в них смысел
Заранее спасибо!

shift-web

Гость# пишет:

вопрос от новичка!

Всё просто. Звёздочка означает, что каскад правил в секции относится к роботу любой ПС. Т.е. подразумевается, что этому правилу последуют все пауки.

Единица возле Crawl-delay, вообще любая цифра, -- единица измерения подразумевающая кол-во секунд задержки между обращениями к сайту. В данном случае 1 секунда.

Точки ... Точки для того, чтобы не повторяться по 200 раз(подразумевают что на их месте может быть что-то ещё).

Гость

Точки ... Точки для того, чтобы не повторяться по 200 раз(подразумевают что на их месте может быть что-то ещё).

Что например?

shift-web
ГвосТь

Еще с этим модулем может быть такая тема как отображение в карте сайта только одной страницы, если при первом запуске был включен только XML sitemap. Этот результат карты сайта зависает в кеше пока не запустится крон.

Отправить комментарий