Советы начинающему веб-мастеру: wordpress robots.txt

admin | 16 Окт 2012 | Рубрика: SEO-оптимизация

Советы начинающему веб-мастеру: wordpress robots.txt

При создании, оптимизации и реконструкции сайта всегда имеются файлы и страницы, которые не подлежат разглашению и не должны быть проиндексированы: технические, разрабатываемые, конфиденциальная информация о клиентах и продажах. Учимся, как добавлять на сайт инструкции для поисковых систем. Делать это несложно.

Файлы с директивами для поисковых роботов называют wordpress robots.txt, или попросту robots.txt. Их создают в обычном текстовом формате, например, в Блокноте, и помещают в корневой каталог сайта. Это делается для того, чтобы, заходя на ваш сайт, поисковые роботы сразу увидели ваши инструкции и действовали по ним.

В инструкциях файлов wordpress robots.txt указывается:

какие страницы и каталоги сайта можно индексировать, какие запрещено;
где найти карту сайта;
какие использовать зеркала;
с какой периодичностью следует загружать страницы, какие делать паузы меду загрузками и другие правила.

Игнорировать инструкции wordpress robots.txt поисковый робот не может. Если же таковых инструкций нет, то самостоятельно «отбраковывая» от показа технические страницы, поисковик может убрать из показа и нужные ресурсы.

Директивы wordpress robots.txt

Директив для настройки wordpress robots.txt используется не много, главное — запомнить основные команды. Их две: User-agent:* Disallow:/

Директива User-agent указывает поискового робота, которому будет запрещено индексировать сайт или файл, названные второй директивой. Если имя робота названо, определенная поисковая система индексировать сайт или файл не будет.

Директива Disallow указывает роботу, что именно запрещено к индексации. Если здесь не прописать путь, робот не будет индексировать сайт в целом. Так делается на этапе создания и реконструкции сайта, после чего используется команда Allow.

Иногда бывает что что ваш ip адрес может попасть в черный список. Но растраиваться не стоит для этого можно просто сменить его. и спокойно пройти регистрацию или попасть на какой то сайт можно с помощью сервиса proxybox.ru

Когда веб-мастеру требуется спрятать от индексации определенные файлы или страницы, используется тот же приказ Disallow:/ с указанием адреса страницы. Внимание, нельзя вписывать в одну строку несколько запретов, иначе команда не сработает.

Кроме основных, существуют дополнительные директивы wordpress robots.txt.

Чаще других употребляются следующие:

директива Sitemap дает подсказку поисковому роботу, где найти карту сайта;

директива Request-rate называет роботу периодичность, с которой следует загружать страницы. Варианты: Request-rate: 1/10 (одна страница в 10 секунд), Request-rate: 1/5 (5 секунд);

директива Host в случае, если у вашего сайта имеется несколько зеркал, подсказывает поисковому роботу основное ваше зеркало;

директива Crawl-delay — полезна для установки паузы между загрузкой страниц, если таких страниц предлагается много. Вариант Crawl-delay: 5 указывает периодичность в 5 секунд, этого достаточно;

директива Visit-time — может ограничивать время, в которое роботу разрешается загружать страницы. Формат даты: Visit-time: 0900—1200.

Проверка правильности wordpress robots.txt

Ваши ошибки приведут к тому, что в результатах поиска появятся страницы, изначально не предназначенные для широкого доступа. Или же наоборот, важные страницы окажутся не проиндексированными.

После создания файла-инструкции настоятельно рекомендуем проверить правильность заложенных настроек. Сделать это несложно с помощью сервиса Анализ robots.txt, доступного на Яндекс.Вебмастер. Вам придется всего лишь вписать в поле имя проверяемого ресурса.

Если Вы решили Вам просто необходима. Вот Вам в помощь сайт www.businessmen.su, на котором все подробно написано.