Robots.txt для WordPress в 2023-2024. Простая базовая и расширенная версии, а так же подробные версии для каждой поисковой системы.
Robots.txt является одним из наиболее важных моментов при создании и оптимизации сайта для поисковых систем. Это небольшой файл, в котором описаны правила индексирования для роботов поисковых систем.
Если этот файл настроен неправильно, то сайт может быть проиндексирован ненадлежащим образом, и вы потеряете значительную часть трафика. И наоборот, правильная настройка может улучшить поисковую оптимизацию и сделать ваши ресурсы выше в списке.
Сегодня мы расскажем о настройке Robots.txt в WordPress и покажем правильные варианты, которые мы сами используем в своих проектах.
Что такое robots.txt?
robots.txt - это текстовый файл, в котором устанавливаются правила для поисковых систем; стандартный WordPress robots.txt выглядит следующим образом:
Некоторые считают, что этого достаточно для правильной индексации. Я же, напротив, считаю, что она должна быть более подробной. Если речь идет о нестандартном проекте, то необходимо и более подробное описание. Давайте познакомимся с основными инструкциями:
Директива | Значение | Пояснение |
User-agent: | Yandex, Googlebot и т.д. | В этой директиве можно указать к какому конкретно роботу мы обращаемся. Обычно используются те значения, которые я указал. |
Disallow: | Относительная ссылка | Директива запрета. Ссылки, указанные в этой директиве будут игнорироваться поисковыми системами. |
Allow: | Относительная ссылка | Разрешающая директива. Ссылки, которые указаны с ней будут проиндексированы. |
Sitemap: | Абсолютная ссылка | Здесь указывается ссылка на XML-карту сайта. Если в файле не указать эту директиву, то придется добавлять карту вручную (через Яндекс.Вебмастер или Search Console). |
Crawl-delay: | Время в секундах (пример: 2.0 — 2 секунды) | Позволяет указать таймаут между посещениями поисковых роботов. Нужна в случае, если эти самые роботы создают дополнительную нагрузку на хостинг. |
Clean-param: | Динамический параметр | Если на сайте есть параметры вида site.ru/statia?uid=32, где ?uid=32 — параметр, то с помощью этой директивы их можно скрыть. |
Базовый Robots.txt в WordPress.
Подходит для всех поисковых систем.
Одни предпочитают создавать краткую версию robots.txt, в которой прописываются правила для всех поисковых систем сразу. Другие создают отдельные правила для каждой поисковой системы (в основном для Yandex и Google).
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /*?
Disallow: /?s=
Allow: /wp-includes/*.css
Allow: /wp-includes/*.js
Allow: /wp-content/plugins/*.css
Allow: /wp-content/plugins/*.js
Allow: /*.css
Allow: /*.js
Sitemap: https://site.ru/sitemap.xml
Расширение Robots.txt для WordPress.
Давайте рассмотрим расширение Robots.txt для WordPress. Важно знать, что все WP-сайты имеют одинаковую структуру. Поскольку имена папок, файлов и т.д. одинаковы, специалисты могут распознать наиболее приемлемую версию Robots.txt.
Она отличается от предыдущей версии более подробным описанием под роботов Yandex и Google. В результате утверждается, что эти ПС в большей степени соответствуют правилам. Также появилась дополнительная техническая страница для закрытия фида.
User-agent: * # Для всех поисковых систем, кроме Яндекса и Гугла
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html # Закрываем бесполезный мануал по установке WordPress (лежит в корне)
Disallow: *?replytocom
Allow: */uploads
Robots.txt для WordPress для Google
User-agent: GoogleBot # Для Гугла
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Robots.txt для WordPress для Яндекса
User-agent: Yandex # Для Яндекса
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat
Sitemap: https://site.com/sitemap_index.xml # Карта сайта, меняем site.com на нужный адрес.
Комментарий (текст после символа #) можно удалить. Причина указания https в качестве протокола в карте сайта заключается в том, что большинство сайтов в настоящее время используют защищенные соединения; если SSL недоступен, измените протокол на http.
Будьте осторожны с закрывающими тегами. Это связано с тем, что они создают большое количество дублирующего контента. Это не очень хорошо для поисковой оптимизации, но если вы хотите включить теги, удалите из файла строку disallow: /tag/.
В общем, WordPress Robots.txt — это именно то, что нужно. Пожалуйста, не стесняйтесь копировать и использовать его. Обратите внимание, что этот вариант применим только к стандартным информационным сайтам.
В других случаях может потребоваться доработка. На этом пока все. Спасибо за внимание.
Так же рекомендуем Вам размещать ваш сайт на WordPress на нашим специализированных тарифах хостинга для WordPress сайтов.