Настройка файла robots.txt: полное руководство для SEO

Настройка файла robots.txt: полное руководство для SEO

Что такое robots.txt и зачем он нужен

Robots.txt — это текстовый файл в корне сайта (например, https://ваш-сайт.ru/robots.txt), который задаёт правила для поисковых роботов. Он указывает, какие разделы сайта можно или нельзя сканировать.

Ключевые задачи:

  • защита конфиденциальных данных;
  • оптимизация краулингового бюджета;
  • предотвращение индексации дублей;
  • управление нагрузкой на сервер.

Где разместить и как проверить?

Размещение:

  • файл должен находиться в корне домена: https://site.ru/robots.txt;
  • доступен по HTTP/HTTPS (не через защищённые директории);
  • кодировка — UTF‑8 без BOM.

Проверка доступности:

  1. Введите в браузере: ваш-сайт.ru/robots.txt.
  2. Убедитесь, что сервер возвращает код $200$ OK.
  3. Проверьте в Google Search Console («Настройки» → «Файл robots.txt»).
  4. В Яндекс Вебмастере — раздел «Индексирование» → «Анализ robots.txt».

Основные директивы и синтаксис

1. User‑agent — указание робота.
Примеры:

User-agent: *                # для всех роботов

User-agent: Googlebot       # только для Google

User-agent: Yandex          # только для Яндекса

2. Disallow — запрет сканирования.
Примеры:

Disallow: /admin/           # запрет директории

Disallow: /search/          # запрет страницы поиска

Disallow: /*?filter=       # запрет URL с параметром filter

3. Allow — разрешение (для уточнения исключений).
Пример:

Allow: /images/photo.jpg   # разрешить конкретный файл

4. Sitemap — ссылка на карту сайта.
Пример:

Sitemap: https://site.ru/sitemap.xml

5. Crawl‑delay — задержка между запросами (устаревшая для Google, актуальна для некоторых других роботов).
Пример:

Crawl-delay: 10           # пауза 10 сек

Типовые правила для разных сайтов

Интернет‑магазин:

User-agent: *

Disallow: /admin/

Disallow: /cart/

Disallow: /checkout/

Disallow: /*sort=

Disallow: /*filter=

Allow: /*.jpg$

Sitemap: https://site.ru/sitemap.xml

Блог/новостной сайт на WordPress:

User-agent: *

Disallow: /wp-admin/

Disallow: /search/

Disallow: /author/

Allow: /wp-content/uploads/

Sitemap: https://site.ru/sitemap.xml

Корпоративный сайт (роботс зависит от тех разделов которые нужно закрыть от индексации):

User-agent: *

Disallow: /temp/

Disallow: /test/

Disallow: /private/

Allow: /public/

Sitemap: https://site.ru/sitemap.xml

Частые ошибки и как их избежать

  1. Случайный запрет всего сайта
    Ошибка:
Disallow: /

Решение: используйте точные пути, тестируйте через валидаторы.

  • Игнорирование параметров URL
    Ошибка: не закрыты динамические фильтры.
    Решение: блокируйте параметры через Disallow: /*?param=.
  • Отсутствие Sitemap
    Решение: добавьте строку Sitemap: с корректным URL.
  • Некорректные пути
    Ошибка: /admin вместо /admin/.
    Решение: всегда проверяйте совпадает ли адрес с тем, которых вы хотите запретить, к примеру, слеш в конце для директорий.
  • Использование комментариев внутри директив
    Ошибка: Disallow: /secret/ # конфиденциально.
    Решение: комментарии только с символа # в отдельной строке.

Продвинутые настройки

1. Раздельные правила для роботов

User-agent: Googlebot
Disallow: /tmp/
User-agent: Yandex
Disallow: /drafts/

2. Ограничение по расширениям

Disallow: *.pdf$
Disallow: *.zip$

3. Разрешение конкретных файлов в запрещённой директории

Disallow: /docs/

Allow: /docs/public-report.pdf

Проверка и тестирование

Инструменты:

  1. Google Search Console — «Тест robots.txt».
  2. Яндекс Вебмастер — «Анализ robots.txt».
  3. Онлайн‑валидаторы:
    robots-txt.com;
    seochat.com/robots-txt-checker.

Ручной тест:

  • попробуйте открыть заблокированные URL через браузер — они должны быть доступны (robots.txt не блокирует доступ, а только сканирование).

Рекомендации по обновлению

  1. При смене структуры сайта — пересмотрите правила.
  2. При добавлении конфиденциальных разделов — сразу закрывайте их.
  3. После запуска новых функций (поиск, фильтры) — проверьте параметры URL.
  4. Раз в 3–6 месяцев — аудит текущих правил.

Чек‑лист настройки

  1. Разместите robots.txt в корне домена.
  2. Укажите User-agent для нужных роботов.
  3. Закройте служебные директории (/admin/, /temp/).
  4. Запретите динамические параметры (?sort=, ?filter=).
  5. Добавьте ссылку на Sitemap.xml.
  6. Проверьте через валидаторы Google/Яндекса.
  7. Протестируйте доступ к ключевым страницам.
  8. Обновляйте при изменениях структуры сайта.

Итог

Грамотно настроенный robots.txt:

  • экономит краулинговый бюджет;
  • защищает конфиденциальные данные;
  • предотвращает дублирование контента;
  • улучшает индексацию важных разделов.

Главное правило: регулярно пересматривайте файл при обновлении сайта и используйте точные, а не глобальные запреты.