Новости партнеров

Как настроить robots.txt - основные правила

Файл robots.txt — это текстовый файл, который играет ключевую роль в SEO, определяя правила обхода сайта поисковыми роботами. Он сообщает поисковым системам, какие разделы сайта можно сканировать, а какие следует закрыть от индексации. Правильная настройка robots.txt помогает оптимизировать краулинговый бюджет, предотвратить индексацию дублей и служебных страниц, а также снизить нагрузку на сервер. В то время как некоторые аспекты продвижения, напрмиер, SEO-накрутка поведенческих факторов, направлены на работу с уже проиндексированным контентом, файл robots.txt управляет самим процессом индексации на самом раннем этапе.

Что такое файл robots.txt и зачем он нужен

Этот файл является своего рода «дорожной картой» для поисковых роботов. Когда робот (например, от Яндекса или Google) приходит на ваш сайт, первым делом он запрашивает файл robots.txt из корневого каталога. На основе его директив робот решает, какие страницы сайта ему разрешено посещать, а какие — нет.

Основные задачи файла robots.txt:

  • Запретить индексацию служебных страниц (админка, корзина, поиск);
  • Предотвратить попадание в поиск дублирующего контента (например, URL с GET-параметрами);
  • Указать местоположение карты сайта (sitemap);
  • Снизить нагрузку на сервер, ограничив частоту запросов от роботов.

Важно понимать, что robots.txt — это рекомендация, а не строгий запрет. Некоторые недобросовестные роботы могут его игнорировать. Для полной блокировки страницы от индексации следует использовать мета-тег .

Как настроить robots.txt - основные правила

Структура и синтаксис файла robots.txt

Файл robots.txt состоит из набора директив, каждая из которых начинается с новой строки. Основные директивы — это User-agent, Disallow, Allow и Sitemap.

1. Директива User-agent

Эта директива указывает, к какому именно поисковому роботу применяются последующие правила. Вы можете задать правила для всех роботов сразу или для конкретного.

Примеры:

# Правила для всех поисковых роботов
User-agent: *

# Правила только для робота Яндекса
User-agent: Yandex

# Правила только для роботов Google
User-agent: Googlebot

Если на сайте есть несколько блоков правил для разных User-agent, робот будет следовать только тому блоку, который соответствует его имени.

2. Директива Disallow

Эта директива запрещает роботу доступ к указанному пути. Путь указывается относительно корня сайта.

Примеры:

# Запретить доступ ко всему сайту (крайне не рекомендуется!)
User-agent: *
Disallow: /

# Запретить доступ к папке админки
User-agent: *
Disallow: /admin/

# Запретить доступ к странице поиска
User-agent: *
Disallow: /search/

Обратите внимание на слэш в конце: /admin/ запрещает доступ ко всей папке, а /admin запретит любую страницу, путь которой начинается с /admin.

3. Директива Allow

Эта директива используется для разрешения доступа к определённым страницам внутри запрещённой директории. Она работает по принципу «разрешено всё, что не запрещено», но с приоритетом более точного совпадения.

Пример:

User-agent: *
Disallow: /catalog/
Allow: /catalog/public/

В этом случае роботу запрещён доступ ко всему каталогу, кроме подпапки /public/.

4. Директива Sitemap

Эта директива указывает роботу местоположение XML-карты сайта. Это помогает поисковым системам быстрее находить и индексировать важные страницы.

Пример:

Sitemap: https://example.com/sitemap.xml

Рекомендуется всегда добавлять эту строку в конец файла robots.txt.

Пошаговая инструкция по созданию файла

Процесс настройки robots.txt состоит из нескольких этапов.

Шаг 1: Создание файла

Файл можно создать в любом текстовом редакторе (Блокнот, Notepad++). Убедитесь, что он сохранён в кодировке UTF-8 без BOM. Имя файла должно быть строго robots.txt — с маленькой буквы и расширением txt.

Шаг 2: Определение запрещённых разделов

Проанализируйте структуру сайта и выявите разделы, которые не должны попадать в результаты поиска. Чаще всего это:

  • Административная панель (/admin/, /wp-admin/);
  • Корзина и оформление заказа (/cart/, /checkout/);
  • Поиск по сайту (/search/);
  • Личный кабинет пользователя (/personal/, /account/);
  • Служебные скрипты и файлы (/scripts/, *.php).

Для интернет-магазина особенно важно закрыть от индексации все URL с параметрами фильтрации и сортировки, чтобы избежать создания большого количества дублей.

Шаг 3: Написание правил

Начните с общих правил для всех роботов (User-agent: *), а затем добавьте специфические правила для Яндекса и Google, если это необходимо.

Пример базового файла для интернет-магазина:

User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /search/
Disallow: /*?*
Disallow: /personal/

# Специфические правила для Яндекса
User-agent: Yandex
Disallow: /cgi-bin/
Clean-param: utm_source&utm_medium&utm_campaign&openstat

# Специфические правила для Google
User-agent: Googlebot
Disallow: /cgi-bin/

Sitemap: https://example.com/sitemap.xml

В этом примере используется директива Clean-param (поддерживается только Яндексом), которая указывает роботу игнорировать определённые GET-параметры при сканировании, что помогает бороться с дублями.

Шаг 4: Загрузка файла на сервер

Готовый файл должен быть загружен в корневую директорию вашего сайта. Например, для сайта https://example.com файл должен быть доступен по адресу https://example.com/robots.txt. Убедитесь, что права доступа к файлу позволяют его чтение (обычно 644).

Особенности для разных поисковых систем

Яндекс и Google имеют некоторые различия в поддержке директив.

Яндекс

  • Поддерживает директиву Clean-param для работы с URL-параметрами;
  • Имеет собственного робота с именем Yandex (ранее использовались YandexBot, YandexImages и др., но теперь достаточно одного правила);
  • Позволяет проверить и протестировать файл через сервис «Яндекс.Вебмастер» в разделе «Инструменты» → «Анализ robots.txt».

Google

  • Не поддерживает Clean-param. Для управления параметрами в Google Search Console есть отдельный инструмент «Параметры URL»;
  • Использует несколько роботов: Googlebot (основной), Googlebot-Image, Googlebot-News и др. Чаще всего достаточно правила для Googlebot;
  • Позволяет тестировать файл в Google Search Console в разделе «Индекс» → «Тестирование файла robots.txt».

Распространённые ошибки и как их избежать

Ошибка Последствия Как исправить
Файл отсутствует Роботы сканируют весь сайт, включая служебные разделы, что тратит краулинговый бюджет Создать и загрузить файл даже с минимальными правилами
Синтаксические ошибки (пропущены двоеточия, неправильные пути) Робот может проигнорировать весь файл или его часть Проверить файл через валидаторы в Вебмастере или Search Console
Запрет индексации всего сайта (Disallow: /) Сайт полностью исчезает из поиска Удалить эту строку немедленно
Отсутствие директивы Sitemap Роботу сложнее найти все важные страницы Всегда добавлять строку Sitemap в конец файла
Путаница между Disallow и meta noindex Страница может быть запрещена к сканированию, но оставаться в индексе Использовать Disallow для запрета сканирования, meta noindex — для удаления из индекса

Как настроить robots.txt - основные правила

Дополнительные директивы и возможности

Помимо основных, существуют и другие, менее известные директивы.

1. Host

Эта директива (поддерживалась только Яндексом) указывала главное зеркало сайта. Однако с 2019 года Яндекс объявил, что больше не учитывает эту директиву. Для указания главного зеркала следует использовать 301-редирект или канонические ссылки.

2. Crawl-delay

Эта директива задаёт паузу (в секундах) между запросами робота к серверу. Это помогает снизить нагрузку на сервер при частом сканировании.

Пример:

User-agent: Yandex
Crawl-delay: 2

Google эту директиву не поддерживает, но позволяет регулировать частоту сканирования в Search Console.

Проверка и анализ файла robots.txt

После настройки важно убедиться, что файл работает корректно.

Инструменты для проверки

  • Яндекс.Вебмастер: Раздел «Инструменты» → «Анализ robots.txt». Позволяет ввести любой URL и проверить, разрешено ли его сканирование;
  • Google Search Console: Раздел «Индекс» → «Тестирование файла robots.txt». Аналогичный инструмент от Google;
  • Онлайн-валидаторы: Существуют сторонние сервисы, которые проверяют синтаксис файла на ошибки.

Регулярная проверка файла особенно важна после внесения изменений в структуру сайта или его функционал.

Заключение

Настройка файла robots.txt — это обязательный этап технического SEO, который напрямую влияет на эффективность индексирования вашего сайта. Правильно составленный файл помогает поисковым роботам сосредоточиться на действительно важных страницах, избегая служебных и дублирующих URL. Это экономит краулинговый бюджет и способствует более быстрому и полному индексированию контента. Помните, что файл должен быть всегда доступен в корневом каталоге, иметь правильный синтаксис и регулярно обновляться по мере развития сайта. Используйте инструменты Яндекс.Вебмастера и Google Search Console для проверки и анализа, чтобы быть уверенным, что ваши правила работают так, как задумано.

Информер новостей
Расширение для Google Chrome
Пишите нам

Редакция: contact@supreme2.ru

Реклама: adv@supreme2.ru

Зеленые технологии

Лента новостей

Все права защищены © 2005-2026

"Supreme2.Ru" - новости для гиков

Контакты  | Policy  | Map Index

Использование любых материалов, размещенных на сайте, разрешается при условии ссылки на Supreme2.Ru. Для интернет-изданий - обязательна прямая открытая для поисковых систем гиперссылка. Ссылка должна быть размещена в независимости от полного либо частичного использования материалов. Материалы в рубрике "Новости партнеров" публикуются на правах рекламы.